전처리 복습 - (2)
Data Analyst

빅데이터 관련 자료/Dacon

전처리 복습 - (2)

carpe08 2021. 9. 13. 13:32
320x100
320x100

파생 변수

머신러닝 모델링을 하다 보면 제한된 변수로 성능을 끌어 올리는 데는 한계가 있다.
특히 정형 데이터의 경우 데이터 증강은 제한적이다. 그래서 더욱더 효율적인 파생 변수를 추가하는 것이 중요하다.
파생 변수를 가장 간단하게 추가하는 방법은 연속형 변수를 범주형 변수로 변환하는 방법이 있다.
두번째로는 sklearn의 Polynomial features 라이브러를 이용해 기존 변수를 다항식 형태로 변환 시키는 방법이있다.

연속형 변수 변환

연속형 변수를 범주형 변수로 변환 시키는 방법은 여러가지가 있겠지만 그중 2가지만 알아보겠다.

1. 수치범위구간을 직접 레이블링 하기
2. pandas의 cut() 함수로 레이블링 하기

특히 두번째 pandas cut() 함수를 이용하면 손쉽게 연속형 변수를 범주형 변수로 변환시킬 수 있다.

Polynominal features

Polynomial features라이브러리는 sklearn에 내장되어 있는 라이브러리이다.
이 라이브러리를 이용하면 현재 데이터를 다항식 형태로 변환 시킬 수 있다.

데이터에 x1, x2 변수가 있다 하면 Polynomial features 라이브러리를 통해
1,x1,x2,x1^2,x1*x2,x2^2로 간단하게 변환 시킬 수 있다.

320x100
320x100

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

XGBoost 실습  (0) 2021.09.15
XGBoost 개념  (0) 2021.09.14
전처리 복습 - (1)  (0) 2021.09.12
Lv4 | 전처리 | Polynomial Features (2)  (0) 2021.09.11
Lv4 | 전처리 | Polynomial Features (1)  (0) 2021.09.10