train_test_split

IT/Dacon

train_test_split - (1)

carpe08 2021. 11. 20. 15:08

모델링 과정에서 가장 먼저 알아볼 것은 바로 train_test_split() 메소드입니다.

train_test_split() 메소드는 데이터 셋을 train_set과 test_set으로 손쉽게 분리할 수 있게 도와주는 메소드입니다.

train / test 데이터 셋을 분리하는 이유

먼저, train/test를 분리하는 목적에 대해 정확히 이해해야 합니다. 용어를 정확히 하자면 train/test가 아니라 train/validation이 맞는 표현입니다. 머신러닝 모델에 train 데이터를 학습 시킨 후 test 데이터를 모델로 예측했을 경우 성능이 생각보다 낮게 나오는 경우가 발생합니다. 이러한 현상을 보통 Overfitting 되었다고 합니다.

이미지 출처 : educative.io

즉, 현재 모델이 너무 학습데이터에 의존 되어 있어 이를 조금이라도 벗어난 케이스에 대해서는 예측율이 현저히 떨어진다고 이해하면 됩니다. 그렇기 때문에 Overfitting을 방지하는 것은 전체적인 모델 성능을 따져보았을 때 중요한 프로세스 중 하나입니다.

기존 train/test로 구분되어 있었던 데이터 셋을 train,/validation으로 일정 비율로 쪼갠 뒤 학습 시에는 train 셋으로 학습 후 validation 셋으로 학습한 모델을 평가해주는 것입니다.

만약 모델이 과적합 되었다면, validation 셋으로 검증시 모델의 성능이 나빠지는 것을 확인할 수 있으며, 이런 현상이 나타났을 때는 학습을 종료 시킵니다. 쉽게 이해해서 test 데이터 셋이 본 시험이라면 validation 데이터 셋은 퀴즈라고 이해하면 좋을 것 같습니다.

320x100

저작자표시 (새창열림)

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

train_test_split() - (3) (0)	2021.11.22
train_test_split() - (2) (0)	2021.11.21
TF-IDF(Term Frequency - Inverse Document Frequency) - (2) (0)	2021.11.19
TF-IDF(Term Frequency - Inverse Document Frequency) - (1) (0)	2021.11.18
CountVectorizer - (2) (0)	2021.11.16

현재글train_test_split - (1)

자주 소통해요~!

250x250

지리, 파이썬, 사경, 명상, Athena, 머신러닝, 해커랭크, 불교 철학, 부처님 말씀, 자비, 불교 명언, SQL, 불교, Python, 불교 수행, 무상, 마음 수행, 관세음보살, 데이터 분석, hackerrank,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

하미's 블로그

train_test_split - (1)

train / test 데이터 셋을 분리하는 이유

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

'IT/Dacon'의 다른글

티스토리툴바

train_test_split - (1)

train / test 데이터 셋을 분리하는 이유

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

'IT/Dacon'의 다른글

관련글

티스토리툴바