정형 데이터 분석 파이프라인 - (2)
Data Analyst

빅데이터 관련 자료/Dacon

정형 데이터 분석 파이프라인 - (2)

carpe08 2021. 10. 13. 18:55
320x100
320x100

지난 시간에는 정형 데이터 분석 파이프라인 중  EDA와 데이터 전처리에 대해 알아 보았습니다.

이번 시간에는 머신러닝 모델링과 모델 튜닝에 대해 알아보도록 하겠습니다.

 

머신러닝 모델링

머신러닝 모델링 과정은 모델을 정의하고 학습데이터로 모델을 학습(훈련)시키는 과정입니다.

트리 기반의 Decision Tree, 여러 모델을 결합한 앙상블 모델이 Random Forest, Xgboost, LightGBM, Voting Classifier 등을 알아보았습니다. 또한, 모델을 검증하는 방법으로 K-fold와 K-fold의 문제점인 target 데이터의 비율을 일정하게 유지하지 못하는 것을 일정하게 유지하며, 교차 검증을 진행하는 Strtified K-fold에 대해 배웠습니다. 

모델

모델 검증

모델 튜닝

모델을 학습한다고 해서 그 모델이 해당 데이터에 맞는 최적의 모델이 아닙니다.

모델에 존재하는 여러가지 파라미터(ex. 트리의 깊이, 학습률)의 최적값을 찾는 과정인 모델 튜닝 과정을 통해 데이터에 맞는 최적의 모델을 구현할 수 있습니다.

모델을 튜닝하는 방법은 여러가지가 있지만 GridSearch, Basian Optimization 등이 있습니다.

GridSearch

Basian optimization

320x100
320x100