Lv3 | 전처리 | 이상치 탐지
Data Analyst

빅데이터 관련 자료/Dacon

Lv3 | 전처리 | 이상치 탐지

carpe08 2021. 8. 16. 00:41
320x100
320x100

데이터 중에는 이상치가 존재한다. 이상치는 말 그대로 이상이 있는 데이터다. 일반적인 데이터 패턴과 매우 다른 패턴을 갖는 데이터과 된다.
이러한 이상치 데이터는 모델의 성능을 크게 떨어트립니다. 오늘은 이상치를 탐지하는법을 배우겠다.
대표적인 방법은 IQR 로, 사분위 값의 편차를 이용한다.
이를 boxplot 그래프로 볼 수 있다.

import seaborn as sns
sns.boxplot(data='데이터셋')
320x100
320x100