Lv4 | 전처리 | 다중공선성 해결 - PCA (2)
Data Analyst

빅데이터 관련 자료/Dacon

Lv4 | 전처리 | 다중공선성 해결 - PCA (2)

carpe08 2021. 9. 6. 14:21
320x100
320x100

차원 축소 기법 중 가장 대표적인 기법인 PCA는 여러 변수간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법이다.
PCA는 기존 데이터의 정보 유실 최소화를 위해 가장 높은 분산을 가지는 데이터 축을 찾아 해당 축으로 차원을 축소한다.
키와 몸무게 2개의 피처를 가지고 있는 데이터 셋이 다음과 같이 구성되어 있다고 가정한다.

이 2개의 피처를 한개의 주성분을 가진 데이터 셋으로 차원축소하는 과정은 다음과 같다.

PCA는 제일 먼저 가장 큰 데이터 변동성을 기반으로 첫 번째 벡터 축을 생성하고,

두 번째 축을 이 벡터 축에 직각이 되는 벡터(직교 벡터)를 축으로 한다.

세 번째 축은 다시 두 번째 축과 직각이 되는 벡터를 설정하는 방식으로 축을 생성한다.

이렇게 생성된 벡터 축에 원본 데이터를 투영하면 벡터 축의 개수 만큼의 차원으로 원본 데이터가 차원 축소된다.

 

요약하면 PCA는 많은 속성으로 구성된 원본 데이터를 그 핵심을 구성하는 데이터로 압축하는 것이다.

320x100
320x100