'빅데이터 관련 자료' 카테고리의 글 목록 (25 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

파이썬 기초 - 7

필요한 라이브러리 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 데이터셋 불러오기 # mpg 데이터셋을 불러옵니다. df = sns.load_dataset('mpg') df 데이터셋 일부만 가져오기 데이터 앞부분 df.head() 데이터 뒷부분 df.tail() 요약하기 df.info() 결측치 보기 df.isnull().sum() 결측치 시각화하기 sns.heatmap(df.isnull(), cmap="Grey_r") 기술 통계 구하기 describe 를 통해 범주형 변수에 대한 기술통계를 보기 df.describe(include='object') 범주형 변수 범주형 데이터 ..

Lv3 | 튜닝 | Bayesian Optimization

Bayesian Optimization 은 하이퍼 파라미터 튜닝과 관련된 내용이다. 우리가 흔히 알고 있는 하이퍼 파라미터 튜닝은 Grid Search, Random Search이다/ 하지만 그 2가지에는 공통적인 문제점이 있다. '최적의 값을 찾아갈 수 없다' 라는 문제점입니다. 이를 해결하기 위한 방법 중 하나가 'Bayesian Optimization' 이다. Bayseian Optimization은 보통 1. 'Gausain Process'라는 통계학을 기반으로 만들어진 모델로, 여러개의 하이퍼 파라미터들에 대해서, 'Aqusition Function' 을 적용했을 때, 가장 큰 값이 나올 확률이 높은 지점을 찾아낸다. 우리가 다룰 Bayesian Optimization 패키지에서는 다음과 같은 ..

파이썬 데이터 분석을 위한 수학 & 통계 - 5회차

상관분석과 회귀분석 - 인과관계 예측 => 좋은 의사결정 - 상관분석과 회귀분석 : 변수간의 관련성 분석 - 선형관계: 두 변수간의 선형관계를 계량적으로 분석 - 회귀분석: 변수를 설명변수와 종속변수로 구분하여, 종속변수를 설명변수의 특정한 함수 형태로 설명할 수 있는지를 분석 1. 상관분석 두 확률변수 X와 Y의 상관관계(선형관계)의 부호와 강약을 나타내는 척도 상관계수의 특성 ① ρXY의 범위는 -1≤ρXY≤1 ② 두 변수가 서로 독립이면 두 변수 간에 상관관계가 없으며, ρXY =0 ③ ρXY =0 이면 두 변수 간에 상관관계(선형관계)가 없다. 그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다. ④ X와 Y가 정규분포를 따르는 경우, ρXY =0 이면 X와 Y는 독립..

Lv3 | 모델링 | 교차검증 실습 K-Fold

교차 검증의 정의와 반복문으로 train-valid로 나누는 방법을 저번에 알아보았다. 이를 실습해보겠다. 이번 시간의 내용을 위의 이미지와 함께 정리하면 다음과 같다. 1. K-Fold를 이용해서 Train 과 Valid Data를 나눈다. 2. Model을 이용해서 train 데이터를 학습한다. 3. Model을 이용해서 valid 데이터를 예측해 성능을 확인한다. 4. Model을 이용해서 test 데이터를 이용한다. 5. n_splits를 5호 설정한다면, 5개의 결과값들에 대한 "최빈값"을 이용해 가장 등장할 가능성이 높은 결과값으로 결정한다. 6. 결과를 제출한다. # "X"라는 변수에 train의 "index"와 "quality"를 제외하고 지정해 주세요 # "y"라는 변수에는 "qualit..

Lv3 | 모델링 | 교차 검증 정의 K-Fold - 2 : 교차검증

교차검증 K-Fold의 아이디어는 단순하다. "모든 데이터를 최소한 한 번씩 다 학습하게 하자!" 그래서 valid 데이터를 겹치지 않게 나누어 N개의 데이터셋을 만들어 낸다. 만약 데이터셋을 5개로 만든다고 하면, (==valid size가 20%) 겹치지 않게 위와 같은 모양으로 만들 수 있다. 그리고 반복문을 통해서 1번부터 5번 데이터들에 들어갔다가 나오면서, 데이터를 모두 최소한 한번씩은 학습한다. 실습 # sklearn에 model_selection 부분 속 KFold를 불러와보세요 from sklearn.model_selection import KFold # KFold에 n_splits = 5, shuffle = True, random_state = 0이라는 인자를 추가해 "kf"라는 변수에..

추천시스템 1회차

추천 시스템은 왜 필요한가? 추천의 원줄기는 검색으로부터 시작됐다. 만약 상품 수가 적을 때는 추천 시스템의 매력도는 없다고 볼 수 있다. 하지만 정보의 풍요로 정보를 찾는데 시간이 너무 오래 걸려 추천시스템의 중요도가 높아졌다. 과거에는 유저가 접할 수 있는 상품과 컨텐츠가 예를 들어 TV채널, 영화관, 백화점, 신문 등과 같이 제한적이었다. 하지만, 정보의 부족이 풍요로 바뀌게 되고, Few Popular items 들이 Long Tail Phenomenon으로 변화하게 됨에 따라 웹과 모바일 환경은 다양한 상품, 컨텐츠를 등장하게되었다. 이렇게 다양한 환경 속에서 사용자들은 정보를 찾는데 시간이 오래 걸린다. 어디에서 어떤 키워드로 원하는 정보를 어떻게 찾아야 하는지 모를 수 가 있기 때문이다. L..

Lv3 | 모델링 | 교차 검증 정의 K-Fold - 1 : Hold-out

Hold-out Hold-out은 단순하게 Train 데이터를 (train,valid)라는 이름의 2개의 데이터로 나누는 작업이다. 보통 train : valid = 8 : 2 혹은 7 : 3의 비율로 데이터를 나눈다. 데이터를 이렇게 나누는 이유가 무엇일까? 이미지를 통해서 추가 설명을 하자면 Train이 train.csv를 통해서 불러온 데이터라면, train은 Train 의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다. test(=valid)는 Train의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다. 모델이 80%의 데이터를 통해서 학습하고, 20%의 데이터를 예측한다면, 어느정도의 성능이 나올지 가늠할 수 있다. 다만 Hold-out 의 문제점은 데이터의 낭비이다. 데이터 사이언스에 있어..

Lv3 | 모델링 | 모델 실습 RandomForestClassifier()

랜덤포레스트 분류 모형을 "random_classifier"라는 변수에 저장하세요. random_classifier = RandomForestClassifier() "X"라는 변수에 train의 "quality" 피쳐를 제거하고 저장하세요. X = train .drop(columns=['quality']) "y"라는 변수에 정답인 train의 "quality" 피쳐를 저장하세요. y = train['quality'] "random_classifier"를 X와 y를 이용해 학습시켜보세요. random_classifier.fit(X,y)

Lv3 | 모델링 | 모델 정의 RandomForestClassifier()

# 랜덤포레스트 분류 모형을 불러오세요 from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트 분류 모형을 "random_forest"라는 변수에 저장하세요 random_forest = RandomForestClassifier() 다만 이번에는 “회귀 모형”이 아닌 “분류 모형”을 사용해보자 회귀 모형은 집값, 주가, 시가 등등 특정한 값을 맞추는 모형이라면, 분류 모형은 어떤 그룹에 속할지를 예측하는 모형이다. 우리가 다루고 있는 “와인 품질 분류”는 말 그대로, 와인의 품질이 어느정도일지를 예측하는 문제이기 때문에, “분류 모델”을 사용해서 예측한다. Randomforest 모형을 불러와 정의하는 실습을 해보겠다 Random Forest 모형은 위..

300x250
300x250