IT/Dacon
Lv3 | EDA | 타깃 변수 분포 시각화 seaborn distplot()
carpe08
2021. 8. 13. 14:48
320x100
Lv3 부터 EDA과정에 시각화를 진행한다. 가장 중요한 변수, 예측하고자 하는 변수인 종속변수의 분포를 시각해보자.
matplotlub, seaborn 라이브러리로 시각화를 출력할 수 있다.
시각화 결과를 통해 머신러닝 방향성을 잡을 수 있다.
import matplotlib.pyplot as plt
import seaborn as sns
시각화를 진행할 때는 보통 copy() 메서드로 복사본을 생성한 후 진행한다
dfcopy=df.copy()
seaborn의 distplot() 메서드를 이용한다.
sns.distplot(df['피쳐명'],kde=True, bins=None)
df['피쳐명']: 출력하고자 하는 컬럼
kde: 그래프에 선을 출력할건지 여부
bins: 출력할 막대그래프 갯수
320x100
320x100