Lv3 | EDA | 타깃 변수 분포 시각화 seaborn distplot()
Data Analyst

빅데이터 관련 자료/Dacon

Lv3 | EDA | 타깃 변수 분포 시각화 seaborn distplot()

carpe08 2021. 8. 13. 14:48
320x100
320x100

 

Lv3 부터 EDA과정에 시각화를 진행한다. 가장 중요한 변수, 예측하고자 하는 변수인 종속변수의 분포를 시각해보자.

 

matplotlub, seaborn 라이브러리로 시각화를 출력할 수 있다.

시각화 결과를 통해 머신러닝 방향성을 잡을 수 있다.

import matplotlib.pyplot as plt
import seaborn as sns

 

시각화를 진행할 때는 보통 copy() 메서드로 복사본을 생성한 후 진행한다

dfcopy=df.copy()

 

seaborn의 distplot() 메서드를 이용한다.

sns.distplot(df['피쳐명'],kde=True, bins=None)


df['피쳐명']: 출력하고자 하는 컬럼
kde: 그래프에 선을 출력할건지 여부
bins: 출력할 막대그래프 갯수
320x100
320x100