Lv3 | 모델링 | 교차 검증 정의 K-Fold

빅데이터 관련 자료/Dacon

Lv3 | 모델링 | 교차 검증 정의 K-Fold - 1 : Hold-out

carpe08 2021. 8. 20. 23:31

320x100

Hold-out

Hold-out은 단순하게 Train 데이터를 (train,valid)라는 이름의 2개의 데이터로 나누는 작업이다.

보통 train : valid = 8 : 2 혹은 7 : 3의 비율로 데이터를 나눈다.

데이터를 이렇게 나누는 이유가 무엇일까?

이미지를 통해서 추가 설명을 하자면

Train이 train.csv를 통해서 불러온 데이터라면,

train은 Train 의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다.

test(=valid)는 Train의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다.

모델이 80%의 데이터를 통해서 학습하고, 20%의 데이터를 예측한다면, 어느정도의 성능이 나올지 가늠할 수 있다.

다만 Hold-out 의 문제점은 데이터의 낭비이다.

데이터 사이언스에 있어 데이터는 소중한 자원이다.

하지만, 단순하게 train 과 test로 분할하게 된다면, 20%의 데이터는 모델이 학습할 기회도 없이, 예측만하고 버려지게 된다.

그래서 '모든 데이터를 학습하게 해보자' 라는 생각에서 나온 것이 '교차 검증' , 즉 K-fold이다.

K-fold는 다음 글로 남기겠다.

320x100

저작자표시

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

Lv3 \| 튜닝 \| Bayesian Optimization (0)	2021.08.23
Lv3 \| 모델링 \| 교차검증 실습 K-Fold (0)	2021.08.22
Lv3 \| 모델링 \| 모델 실습 RandomForestClassifier() (0)	2021.08.20
Lv3 \| 모델링 \| 모델 정의 RandomForestClassifier() (0)	2021.08.19
Lv3 \| 전처리 \| 원-핫 인코딩 OneHotEncoder() (0)	2021.08.18

현재글Lv3 | 모델링 | 교차 검증 정의 K-Fold - 1 : Hold-out

현업 데이터 분석가의 실무 및 일상 Story

250x250

데이터분석, Oracle SQL, 파이썬, kubernetes, KSQL, Python, html 기초, hackerrank, PySpark, train_test_split, SQL, 데이콘, 해커랭크, 머신러닝, lgbm, SQL 기초, 하이퍼파라미터, 파이썬 기초, 다중공선성, hadoop,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

이서