320x100
320x100
Hold-out
Hold-out은 단순하게 Train 데이터를 (train,valid)라는 이름의 2개의 데이터로 나누는 작업이다.
보통 train : valid = 8 : 2 혹은 7 : 3의 비율로 데이터를 나눈다.
데이터를 이렇게 나누는 이유가 무엇일까?
이미지를 통해서 추가 설명을 하자면
Train이 train.csv를 통해서 불러온 데이터라면,
train은 Train 의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다.
test(=valid)는 Train의 거대한 데이터를 8 : 2로 쪼갠 작은 부분이다.
모델이 80%의 데이터를 통해서 학습하고, 20%의 데이터를 예측한다면, 어느정도의 성능이 나올지 가늠할 수 있다.
다만 Hold-out 의 문제점은 데이터의 낭비이다.
데이터 사이언스에 있어 데이터는 소중한 자원이다.
하지만, 단순하게 train 과 test로 분할하게 된다면, 20%의 데이터는 모델이 학습할 기회도 없이, 예측만하고 버려지게 된다.
그래서 '모든 데이터를 학습하게 해보자' 라는 생각에서 나온 것이 '교차 검증' , 즉 K-fold이다.
K-fold는 다음 글로 남기겠다.
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
Lv3 | 튜닝 | Bayesian Optimization (0) | 2021.08.23 |
---|---|
Lv3 | 모델링 | 교차검증 실습 K-Fold (0) | 2021.08.22 |
Lv3 | 모델링 | 모델 실습 RandomForestClassifier() (0) | 2021.08.20 |
Lv3 | 모델링 | 모델 정의 RandomForestClassifier() (0) | 2021.08.19 |
Lv3 | 전처리 | 원-핫 인코딩 OneHotEncoder() (0) | 2021.08.18 |