320x100
320x100
Lv3 부터 EDA과정에 시각화를 진행한다. 가장 중요한 변수, 예측하고자 하는 변수인 종속변수의 분포를 시각해보자.
matplotlub, seaborn 라이브러리로 시각화를 출력할 수 있다.
시각화 결과를 통해 머신러닝 방향성을 잡을 수 있다.
import matplotlib.pyplot as plt
import seaborn as sns
시각화를 진행할 때는 보통 copy() 메서드로 복사본을 생성한 후 진행한다
dfcopy=df.copy()
seaborn의 distplot() 메서드를 이용한다.
sns.distplot(df['피쳐명'],kde=True, bins=None)
df['피쳐명']: 출력하고자 하는 컬럼
kde: 그래프에 선을 출력할건지 여부
bins: 출력할 막대그래프 갯수
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
Lv3 | EDA | Matplotlib 히스토그램 그리기 (hist()) (0) | 2021.08.15 |
---|---|
Lv3 | EDA | Matplotlib 선 그래프 그리기 (plot()) (0) | 2021.08.14 |
Lv3 | EDA | 수치데이터 특성 보기 (describe()) (0) | 2021.08.12 |
Lv3 | EDA | 결측치 유무 확인하기 isnull().sum() (0) | 2021.08.11 |
Lv3 | EDA | read_csv(), info(), shape, head() (0) | 2021.08.10 |