'train_test_split' 태그의 글 목록
Data Analyst
300x250
300x250

train_test_split 9

train_test_split / LGBM (2)

Light GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. fit () 메소드 내부에 있는 eval_metric 파라미터와, verbose 파라미터를 이용하면 평가 산식을 원하는 산식으로 설정하고, 모델이 학습과 검증을 진행하며 그 과정을 출력 할 수 있습니다. eval_metric = "원하는 평가산식" 을 넣어주시면 학습을 진행하며 지정해주신 평가 산식과 검증 데이터 셋을 이용해 결과 값을 출력해줍니다. 또한 verbose = "10" 과 같이 파라미터를 지정해주면 n_estimators를 기준으로 10번 마다 결과 값을 출력 하게 됩니다. # LightGBM을 이용해 학습 및 검증 진행 from lightgbm import LGBMRegressor model = LGBMRe..

train_test_split / LGBM (1)

학습에 사용 할 모델은 Light GBM 입니다. Light GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. 이때 fit() 메소드 내부에 다음과 같이 파라미터를 적용해주면 모델이 학습을 하면서 validation 데이터를 이용해 계속 검증을 진행 합니다. model.fit(x_train, y_train, eval_set = [(x_train,y_train),(x_valid,y_valid)] ) #train_test_split() 메소드를 이용해 train/validation 데이터 나누기 # stratify 옵션을 활용하여 데이터 셋 split x_train,x_valid, y_train, y_valid = train_test_split(train_x,train['categor..

train_test_split() - (4)

stratify: stratify 파라미터는 분류 문제를 다룰 때 매우 중요하게 활용되는 파라미터 값 입니다. stratify 값으로는 target 값을 지정해주면 됩니다. stratify값을 target 값으로 지정해주면 target의 class 비율을 유지 한 채로 데이터 셋을 split 하게 됩니다. 만약 이 옵션을 지정해주지 않고 classification 문제를 다룬다면, 성능의 차이가 많이 날 수 있습니다. # 라이브러리 로딩 from sklearn.model_selection import train_test_split #train_test_split() 메소드를 이용해 train/validation 데이터 나누기 # stratify 옵션을 활용하여 데이터 셋 split x_train,x_va..

train_test_split() - (3)

train_test_split() 메소드의 test_size 파라미터와 shuffle 파라미터 에 대해 알아보겠다. test_size = test data(validation data) 구성의 비율을 나타낸다. train_size의 옵션과 반대 관계에 있는 옵션 값이며, 주로 test_size 파라미터를 지정해준다. test_size = 0.2로 지정하면 전체 데이터 셋의 20%를 test(validation) 셋으로 지정하겠다는 의미입니다. default 값은 0.25입니다. shuffle: 데이터를 split 하기 이전에 섞을지 말지 여부에 대해 지정해주는 파라미터입니다. default = True입니다. # 라이브러리 로딩 from sklearn.model_selection import train_..

train_test_split() - (2)

train_test_split()을 이용한 train / validation(test) 분리 train_test_split 함수를 통해 단 1줄로 깔끔하게 분리할 수 있다. 패키지는 sklearn.model_selection에 있습니다. train_test_split 메소드는 총 4개의 값을 반환하고 2개의 값을 필수적으로 채워주어야 합니다. 반환하는 값은 학습에 사용할 X,y 값, 검증에 사용할 X,y 값 이렇게 총 4개의 값을 반환하고, 입력값으로는 원본 데이터의 X,y를 채워주어야 합니다. #라이브러리 로딩 from sklearn.model_selection import train_test_split X = train_x y = train['category'] X_train, X_test, y_tr..

train_test_split / LGBM - (2)

이전시간에는 train_test_split() 으로 데이터셋을 split 하고 해당 데이터 셋을 이용해 모델을 학습하고 검증하는 방법에 대해 알아 보았습니다. 이번시간에는 거기에 더해 검증하는 평가 산식을 원하는 산식으로 설정하고, 모델이 학습과 검증을 진행하며 그 과정을 출력 할 수 있는 방법에 대해 알아보겠습니다. 학습에 사용 할 모델은 Light GBM 입니다. ight GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. fit () 메소드 내부에 있는 eval_metric 파라미터와, verbose 파라미터를 이용하면 평가 산식을 원하는 산식으로 설정하고, 모델이 학습과 검증을 진행하며 그 과정을 출력 할 수 있습니다. eval_metric = "원하는 평가산식" 을 넣어주시..

train_test_split / LGBM (1)

이번시간에는 train_test_split() 으로 데이터셋을 split 하고 해당 데이터 셋을 이용해 모델을 학습하고 검증하는 방법에 대해 알아 보겠습니다. 학습에 사용 할 모델은 Light GBM 입니다 Light GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. 이때 fit() 메소드 내부에 다음과 같이 파라미터를 적용해주면 모델이 학습을 하면서 validation 데이터를 이용해 계속 검증을 진행 합니다. model.fit(x_train, y_train, eval_set = [(x_train,y_train),(x_valid,y_valid)] ) #train_test_split() 메소드를 이용해 train/validation 데이터 나누기 # stratify 옵션을 활용하여..

train_test_split - (4)

이번시간에는 train_test_split() 메소드의 stratify파라미터에 대해 알아보겠습니다. stratify: stratify 파라미터는 분류 문제를 다룰 때 매우 중요하게 활용되는 파라미터 값 입니다. stratify 값으로는 target 값을 지정해주면 됩니다. stratify값을 target 값으로 지정해주면 target의 class 비율을 유지 한 채로 데이터 셋을 split 하게 됩니다. 만약 이 옵션을 지정해주지 않고 classification 문제를 다룬다면, 성능의 차이가 많이 날 수 있습니다. # 라이브러리 로딩 from sklearn.model_selection import train_test_split #train_test_split() 메소드를 이용해 train/valida..

train_test_split - (1)

모델링 과정에서 가장 먼저 알아볼 것은 바로 train_test_split() 메소드입니다. train_test_split() 메소드는 데이터 셋을 train_set과 test_set으로 손쉽게 분리할 수 있게 도와주는 메소드입니다. train / test 데이터 셋을 분리하는 이유 먼저, train/test를 분리하는 목적에 대해 정확히 이해해야 합니다. 용어를 정확히 하자면 train/test가 아니라 train/validation이 맞는 표현입니다. 머신러닝 모델에 train 데이터를 학습 시킨 후 test 데이터를 모델로 예측했을 경우 성능이 생각보다 낮게 나오는 경우가 발생합니다. 이러한 현상을 보통 Overfitting 되었다고 합니다. 이미지 출처 : educative.io 즉, 현재 모델이..

300x250
300x250