Lv3 | 모델링 | 교차 검증 정의 K-Fold - 1 : Hold-out
Data Analyst

빅데이터 관련 자료/Dacon

Lv3 | 모델링 | 교차 검증 정의 K-Fold - 1 : Hold-out

carpe08 2021. 8. 20. 23:31
320x100
320x100

Hold-out

 

Hold-out은 단순하게 Train 데이터를 (train,valid)라는 이름의 2개의 데이터로 나누는 작업이다.

보통 train : valid = 8 : 2 혹은 7 : 3의 비율로 데이터를 나눈다.

데이터를 이렇게 나누는 이유가 무엇일까?

 

이미지를 통해서 추가 설명을 하자면

Train이 train.csv를 통해서 불러온 데이터라면,

train은 Train 의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다.

test(=valid)는 Train의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다.

모델이 80%의 데이터를 통해서 학습하고, 20%의 데이터를 예측한다면, 어느정도의 성능이 나올지 가늠할 수 있다.

 

다만 Hold-out 의 문제점은 데이터의 낭비이다.

데이터 사이언스에 있어 데이터는 소중한 자원이다.

하지만, 단순하게 train 과 test로 분할하게 된다면, 20%의 데이터는 모델이 학습할 기회도 없이, 예측만하고 버려지게 된다.

그래서 '모든 데이터를 학습하게 해보자' 라는 생각에서 나온 것이 '교차 검증' , 즉 K-fold이다.

K-fold는 다음 글로 남기겠다.

320x100
320x100