320x100
320x100
다중공선성
다중공선성은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다.
만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣는 것이므로 모델이 결과값을 추론하는데 방해가 될 수 있다.
다중공선성 확인
다중공선성을 확인 하는 방법은 크게 3가지가 있다.
1. scatter plot을 통한 확인
2. hearmap 그래프를 통한 확인
3. VIF을 통한 확인
Scatter plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있다.
x 데이터가 증가함에 따라 y데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석할 수 있다.
#scatter plot을 그릴 변수 지정
x_data = train['residual sugar']
y_data = train['density']
#seaborn의 scatterplot 함수를 이용해 그래프를 그립니다.
sns.scatterplot(x=x_data, y=y_data)
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
Lv4 | EDA | 복습 (0) | 2021.09.01 |
---|---|
Lv4 | EDA | 다중공선성 VIF(분산 팽창 요인) (0) | 2021.08.31 |
Lv4 | EDA | 2/5 | seaborn distplot (0) | 2021.08.28 |
Lv4 | EDA | 1/5 | seaborn pairplot (0) | 2021.08.27 |
Lv3 | 튜닝 | Bayesian Optimization 실습 (0) | 2021.08.26 |