Lv4 | 전처리 | 연속형 변수 변환 (2)
Data Analyst

빅데이터 관련 자료/Dacon

Lv4 | 전처리 | 연속형 변수 변환 (2)

carpe08 2021. 9. 9. 14:18
320x100
320x100

연속형 변수를 범주형 변수로 변환 시키는 방법 중 2번째 방법에 대해 알아보겠다.

수치 범위 구간을 직접 지정해 레이블링 하기.
판다스의 cut() 함수로 레이블링 하기 

지난 시간에는 직접 수치 범위를 지정해서 나눴다. 
직접 수치 범위를 나눌 경우 조금 더 세밀하게 조정가능하다는 장점이 있지만,
여러 변수에 한번에 적용하기는 어렵고 각각의 변수에 맞는 범위를 지정하기에는 많은 시간이 소요될 것이다.

이번 시간에는 판다스의 cut() 함수를 이용해 손쉽게 연속형 변수를 범주형 변수로 변환 시켜보도록 하겠다.
사용 방법은 아래와 같다.

train['변수명'] = pd.cut(train['변수명'], 나눌 범주의 갯수(정수형), labels=False)

 # train 데이터의 alcohol 변수를 구간이 5개인 범주형 변수로 변환

train['alchol'] = pd.cut(train['alchol'],5,labels=False)
320x100
320x100