320x100
320x100
이번 시간에는 정형 데이터 분석의 전체 파이프라인에 대해 복습해 보도록 하겠습니다.
순서는 다음과 같습니다.
1. 탐색적 데이터 분석(EDA)
2. 데이터 전처리
3. 머신러닝 모델링
4. 모델 튜닝
탐색적 데이터 분석(EDA)
EDA: 처음 데이터를 수집하였을 때 다양한 각도에서 관찰하고 이해하는 과정
EDA 과정이 필요한 이유는 데이터 분석을 시작 하기 전에 데이터에 대한 100% 이해가 필요하기 때문입니다. 데이터를 잘 이해하고 파악하여야 목적에 맞게 데이터를 정제시킬 수 있고 더 나아가 새로운 인사이트를 도출 할 수 있게 될 것이다.
- 라이브러리 불러오기 (import)
- 파일 불러오기 (read_csv())
- 행열갯수 관찰하기 (shape)
- 데이터 확인하기 (head())
- 결측치 유무 확인하기 isnull().sum()
- 데이터 결측치 확인하기 (info())
- 수치데이터 특성 보기 (describe())
데이터 전처리
데이터 전처리 과정은 데이터 분석의 전체 파이프라인에서 가장 중요한 과정이다. 분석 결과/ 인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다뤄지는 과정입니다. 한 설무노사에 의하면, 분석가의 80% 시간을 데이터 수집 및 전처리에 사용한다고 합니다.
결측치 다루기
이상치 다루기
정규화 및 인코딩
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
nrows, n번째 행까지 불러오기 (0) | 2021.10.23 |
---|---|
정형 데이터 분석 파이프라인 - (2) (0) | 2021.10.13 |
XGBoost 튜닝 - 2 (0) | 2021.09.29 |
XGBoost 튜닝 (0) | 2021.09.28 |
Bayesian Optimization 실습 (0) | 2021.09.27 |