Lv4 | EDA | seaborn |다중공선성 Scatter plot
Data Analyst

빅데이터 관련 자료/Dacon

Lv4 | EDA | seaborn |다중공선성 Scatter plot

carpe08 2021. 8. 30. 18:18
320x100
320x100

다중공선성

다중공선성은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다.
만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣는 것이므로 모델이 결과값을 추론하는데 방해가 될 수 있다.

다중공선성 확인

다중공선성을 확인 하는 방법은 크게 3가지가 있다.
1. scatter plot을 통한 확인
2. hearmap 그래프를 통한 확인
3. VIF을 통한 확인

Scatter plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있다.

x 데이터가 증가함에 따라 y데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석할 수 있다.

#scatter plot을 그릴 변수 지정
x_data = train['residual sugar']
y_data = train['density']

#seaborn의 scatterplot 함수를 이용해 그래프를 그립니다.
sns.scatterplot(x=x_data, y=y_data)
320x100
320x100