전처리 복습 - (1)
Data Analyst

빅데이터 관련 자료/Dacon

전처리 복습 - (1)

carpe08 2021. 9. 12. 00:21
320x100
320x100

다중 공선성 해결

다중 공선성 해결하는 방법은 3가지가 있다.
1. 변수 정규화
2. 변수 제거
3. PCA(주성분 분석)

변수 정규화
- 변수 정규화의 경우 MinMaxScaler()를 통해 손쉽게 구할 수 있다.

변수 제거
- VIF(분산 팽창 요인) 계수가 10이상인 변수들을 다중 공선성이 있다고 판단하여 제거 한다.

PCA(주성분 분석)
- PCA는 차원 축소의 방법 중 하나인 feature extraction의 대표적인 기법이다.

* 차원 축소: 많은 피처로 구성된 다차원 데이터 셋의 차원을 축소해 새로운 차원의 데이터 셋을 생성하는 것
* feature extraction: 기존 피처를 단순 압축이 아닌, 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것

320x100
320x100