'빅데이터 관련 자료' 카테고리의 글 목록 (24 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

Lv4 | 전처리 | 다중공선성 해결 - PCA (1)

이전 시간에 말했듯이, 다중공선성을 해결하는 방법은 크게 세가지가 있다. 1. 변수 정규화 2. 변수 제거 3. PCA(주성분 분석) 변수 정규화 방법은 수치형 데이터들을 Min-Max scaling 이나 Z-Score scaling 등의 기법으로 정규화 시켜주는 방법이고, 변수 제거 방법은 변수의 VIF(분산팽창요인) 계수가 10이상인 변수를 제거하는 방법이였다. 마지막 세번째 방법은 PCA를 통한 해결 방법이다. PCA를 이해하기 위해서 먼저 차원축소의 개념을 이해해야한다. 차원 축소란? 차원 축소는 많은 피처로 구성된 다차원 데이터 셋의 차원을 축소해 새로운 차원의 데이터 셋을 생성하는 것이다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse)..

데이터베이스 기초 (MYSQL)

개념 " 데이터를 구조적으로 모아둔 데이터 집합소 " 관계형 데이터베이스(Relational Database - : RDB) 데이터를 열과 행을 가진 테이블 형태로 표현하며, 구조적으로 데이터 관리를 한다. NoSQL 구조적 데이터, 가변적인 형태로 관리 및 가공, 데이터 처리 속도가 빠르다. 빅데이터에 최적화되어있다. 용어 SQL structured Query Language RDBMS의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 SQL 문법 데이터 정의 언어(DDL) CREATE, DROP, ALTER 데이터 조작 언어(DML) SELECT INSERT, UPDATE, DELETE 데이터 제어 언어(DCL) GRANT, REVOKE CRUD CREATE, READ, UPDATE, DE..

Lv4 | 전처리 | 다중공선성 해결 | 변수 정규화

다중공선성 해결 다중공선성을 일으키는 변수들을 어떻게 다뤄줘야할지에 대해 알아보도록 하겠다. 다중공선성을 해결하는 방법은 크게 3가지가 있다. 1. 변수 정규화 2. 변수 제거 3. PCA(주성분 분석) 이번 시간에는 정규호를 적용하기 전 분산 팽창 요인(VIF)를 확인하고 정규화를 적용한 후에 분산 팽창 요인을 확인해 서로 비교하도록 한다. #train 데이터의 VIF 계수 출력 vif =pd.DataFrame() vif['VIF Factor"] = [variance_inflation_factor(train_values,i) for i in range(train.shape[1])] vif['features'] = train.columns vif # MinMaxScaler를 통해 변환 scaler = M..

Lv4 | EDA | 복습

1️⃣ seaborn pairplot seaborn의 pairplot은 데이터에 들어 있는 각 컬럼(열)들의 모든 상관 관계를 출력합니다. 3차원 이상의 데이터라면 pairplot 함수를 사용해 분포도를 그리면 손쉽게 모든 변수간의 상관관계를 얻을 수 있습니다. pairplot은 grid(격자) 형태로 각 집합의 조합에 대해 히스토그램과 분포도를 그립니다. 2️⃣seaborn distplot seaborn의 distplot 함수는 데이터의 히스토그램을 그려주는 함수입니다. 히스토그램이란 수치형 데이터 분포를 정확하게 표현해주는 시각화 방법입니다. 변수를 여러 개의 bin으로 자르고(사용자 지정) bin당 관측수를 막대그래프로 표현합니다. 3️⃣ 히트맵 (Heat Map) 히트맵은 두개의 범주형(Categ..

Lv4 | EDA | 다중공선성 VIF(분산 팽창 요인)

이번에는 변수의 다중공선성을 확인하는 방법 중 하나인 VIF(variance Inflation Factors, 분산팽창요인)에 대해 알아보자 VIF는 변수간의 다중공선성을 진단하는 수치이며, 범위 1부터 무한대이다. 통계학에서는 VIF값이 10이상이면 해당 변수가 다중공선성이 있는 것으로 판단한다 VIF를 구하는 수식은 VIFk = 1 / (1 - Rj2) 이다. 여기서 VIFk 는 k번째 변수의 VIF 값을 의미하고, Rj2 는 회귀분석에서 사용하는 결정계수이다. # 결과값을 저장할 VIF라는 이름의 리스트 생성 vif = [] # values atribution(속성) 이용해 train 데이터의 값만 추출 train_val = train.values # variance_inflation_factor ..

Lv4 | EDA | seaborn |다중공선성 Scatter plot

다중공선성 다중공선성은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다. 만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣는 것이므로 모델이 결과값을 추론하는데 방해가 될 수 있다. 다중공선성 확인 다중공선성을 확인 하는 방법은 크게 3가지가 있다. 1. scatter plot을 통한 확인 2. hearmap 그래프를 통한 확인 3. VIF을 통한 확인 Scatter plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있다. x 데이터가 증가함에 따라 y데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석할 수 있다. #scatter plot을 그릴 변수 지정 x_data = train['residu..

Lv4 | EDA | 2/5 | seaborn distplot

seabron의 distplot 함수는 데이터의 히스토그램을 그려주는 함수이다. 히스토크갦이랑 수치형 데이터 분포를 정확하게 표현해주는 시각화 방법이다. 변수를 여러개의 bin으로 자르고(사용자 지정) bin당 관측수를 막대그래프로 표현한다. #히스토그램을 그릴 변수지정(변수는 1개만) data =train['fixed acidity'] #distplot 함수로 히스토그램을 그립니다. sns.distplot(data, bins=100)

Lv4 | EDA | 1/5 | seaborn pairplot

seabron의 pairplot은 데이터에 들어 있는 각 컬럼(열)들의 모든 상관 관계를 출력한다. 3차원 이상의 데이터라면 pairtplot 함수를 사용해 분포도를 그리면 손쉽게 모든 변수간의 상관관계를 얻을 수 있다. pairplot은 grid(격자) 형태로 각 집합의 조합에 대해 히스토그램과 분포도를 그린다. #"data"라는 변수에 train의 "fixed acidity"부터 "chlorides"까지의 변수를 저장해주세요 data = train.loc[:,'fixed acidity':'chlorides'] #data의 pairplot을 그려보세요 sns.pairplot(data)

Lv3 | 튜닝 | Bayesian Optimization 실습

# X에 학습할 데이터를, y에 목표 변수를 저장해주세요 X = train.drop(columns=['index','quailty']) y = train['quality'] # 랜덤포레스트의 하이퍼 파라미터의 범위를 dictionary 형태로 지정해주세요 ## Key는 랜덤포레스트의 hyperparameter이름이고, value는 탐색할 범위 입니다. rf_parameter_bounds = { 'max_depth' : (1,3) #나무의 깊이 'n_estimators' : (30,100), } # 함수를 만들어주겠습니다. # 함수의 구성은 다음과 같습니다. # 1. 함수에 들어가는 인자 = 위에서 만든 함수의 key값들 # 2. 함수 속 인자를 통해 받아와 새롭게 하이퍼파라미터 딕셔너리 생성 # 3. 그..

Lv3 | 튜닝 | 그리드, 랜덤 서치 vs Bayesian Optimization

이번 시간에는 Hyper Parameter의 3가지 튜닝 방법을 비교해보겠습니다. 1. GridSearch 기법: =사전에 탐색할 값들을 미리 지정해주고, 그 값들의 모든 조합을 바탕으로 성능의 최고점을 찾아낸다. 장점: 내가 원하는 범위를 정확하게 비교 분석이 가능하다. 단점: 시간이 오래걸린다. (4개의 파라미터에 대해서, 4가지 값들을 지정해두고, 한번 탐색하는데 1분이 걸린다면 -> 4*4*1분 = 16분) 소요) 성능의 최고점이 아닐 가능성이 높다. "최적화 검색" (여러개들을 비교 분석해서 최고를 찾아내는 기법)이지, "최적화 탐색"(성능이 가장 높은 점으로 점차 찾아가는 기법)이 아니다. 2. Random Search 기법: 사전에 탐색할 값들의 범위를 지정해주고, 그 범위 속에서 가능한 조..

300x250
300x250