320x100
320x100
데이터 중에는 이상치가 존재한다. 이상치는 말 그대로 이상이 있는 데이터다. 일반적인 데이터 패턴과 매우 다른 패턴을 갖는 데이터과 된다.
이러한 이상치 데이터는 모델의 성능을 크게 떨어트립니다. 오늘은 이상치를 탐지하는법을 배우겠다.
대표적인 방법은 IQR 로, 사분위 값의 편차를 이용한다.
이를 boxplot 그래프로 볼 수 있다.
import seaborn as sns
sns.boxplot(data='데이터셋')
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
Lv3 | 전처리 | 원-핫 인코딩 OneHotEncoder() (0) | 2021.08.18 |
---|---|
Lv3 | 전처리 | 수치형 데이터 정규화 MinMaxScaler() (0) | 2021.08.17 |
Lv3 | EDA | Matplotlib 히스토그램 그리기 (hist()) (0) | 2021.08.15 |
Lv3 | EDA | Matplotlib 선 그래프 그리기 (plot()) (0) | 2021.08.14 |
Lv3 | EDA | 타깃 변수 분포 시각화 seaborn distplot() (0) | 2021.08.13 |