'다중공선성' 태그의 글 목록
Data Analyst
300x250
300x250

다중공선성 4

Lv4 | 전처리 | 다중공선성 해결 | 변수 정규화

다중공선성 해결 다중공선성을 일으키는 변수들을 어떻게 다뤄줘야할지에 대해 알아보도록 하겠다. 다중공선성을 해결하는 방법은 크게 3가지가 있다. 1. 변수 정규화 2. 변수 제거 3. PCA(주성분 분석) 이번 시간에는 정규호를 적용하기 전 분산 팽창 요인(VIF)를 확인하고 정규화를 적용한 후에 분산 팽창 요인을 확인해 서로 비교하도록 한다. #train 데이터의 VIF 계수 출력 vif =pd.DataFrame() vif['VIF Factor"] = [variance_inflation_factor(train_values,i) for i in range(train.shape[1])] vif['features'] = train.columns vif # MinMaxScaler를 통해 변환 scaler = M..

Lv4 | EDA | 다중공선성 VIF(분산 팽창 요인)

이번에는 변수의 다중공선성을 확인하는 방법 중 하나인 VIF(variance Inflation Factors, 분산팽창요인)에 대해 알아보자 VIF는 변수간의 다중공선성을 진단하는 수치이며, 범위 1부터 무한대이다. 통계학에서는 VIF값이 10이상이면 해당 변수가 다중공선성이 있는 것으로 판단한다 VIF를 구하는 수식은 VIFk = 1 / (1 - Rj2) 이다. 여기서 VIFk 는 k번째 변수의 VIF 값을 의미하고, Rj2 는 회귀분석에서 사용하는 결정계수이다. # 결과값을 저장할 VIF라는 이름의 리스트 생성 vif = [] # values atribution(속성) 이용해 train 데이터의 값만 추출 train_val = train.values # variance_inflation_factor ..

Lv4 | EDA | seaborn |다중공선성 Scatter plot

다중공선성 다중공선성은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다. 만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣는 것이므로 모델이 결과값을 추론하는데 방해가 될 수 있다. 다중공선성 확인 다중공선성을 확인 하는 방법은 크게 3가지가 있다. 1. scatter plot을 통한 확인 2. hearmap 그래프를 통한 확인 3. VIF을 통한 확인 Scatter plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있다. x 데이터가 증가함에 따라 y데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석할 수 있다. #scatter plot을 그릴 변수 지정 x_data = train['residu..

파이썬 데이터 분석을 위한 수학 & 통계 - 5회차

상관분석과 회귀분석 - 인과관계 예측 => 좋은 의사결정 - 상관분석과 회귀분석 : 변수간의 관련성 분석 - 선형관계: 두 변수간의 선형관계를 계량적으로 분석 - 회귀분석: 변수를 설명변수와 종속변수로 구분하여, 종속변수를 설명변수의 특정한 함수 형태로 설명할 수 있는지를 분석 1. 상관분석 두 확률변수 X와 Y의 상관관계(선형관계)의 부호와 강약을 나타내는 척도 상관계수의 특성 ① ρXY의 범위는 -1≤ρXY≤1 ② 두 변수가 서로 독립이면 두 변수 간에 상관관계가 없으며, ρXY =0 ③ ρXY =0 이면 두 변수 간에 상관관계(선형관계)가 없다. 그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다. ④ X와 Y가 정규분포를 따르는 경우, ρXY =0 이면 X와 Y는 독립..

300x250
300x250