'빅데이터 관련 자료/Dacon' 카테고리의 글 목록
Data Analyst
300x250
300x250

빅데이터 관련 자료/Dacon 104

하이퍼파라미터 튜닝 / grid search

하이퍼 파라미터란 모델 정의시 사람이 직접 지정 해주는 값 Grid Search Grid Search란 하이퍼 파라미터로 지정할 수 있는 값들을 순차적으로 입력한뒤 가장 높은 성능을 보이는 하이퍼 파라미터를 찾는 탐색 방법입니다. 예를 들어 Grid Search 를 통해 모델 깊이와 모델 넓이 라는 두개의 하이퍼 파라미터를 튜닝 한다고 가정해봅시다. 우선, 하이퍼 파라미터로 지정할 값들을 다음과 같이 설정해 줍니다. 모델 깊이 = [1, 2, 3] , 모델 넓이 = [a, b] 모델 깊이는 1 ,2, 3 중 하나의 값이고, 모델 넓이는 a, b 중 하나의 값으로 지정 하고자 합니다. grid search를 이용한다면 다음 순서대로 하이퍼 파라미터를 지정해 학습과 검증을 거치며, 그중 성능이 가장 높은 하..

파라미터/하이퍼파라미터

파라미터(Parameter, 매개변수) 파라미터(parameter, 매개변수)는 학습 과정에서 생성되는 변수들입니다. 예를 들어 한 학년에 속해 있는 학생들의 키에 대한 정규분포를 그린다고 하면, 평균과 표준편차가 계산 될 것입니다. 여기서 평균과 표준편차가 파라미터(Parameter, 매개변수) 입니다. 파라미터는 데이터를 통해 구해지며, 모델 내부적으로 결정되는 값입니다. 사용자가 임의로 설정하는 값이 아닙니다. LGBM 모델과 딥러닝 모델의 학습 가중치들이 파라미터에 해당됩니다. 하이퍼 파라미터(Hyper parameter) 하이퍼 파라미터는 모델링할 때 사용자가 직접 세팅해주는 값을 뜻합니다. learning rate나 트리 기반 모델의 트리의 최대 깊이, 최소 노드 갯수 등 굉장히 많습니다. 머..

train_test_split / LGBM (2)

Light GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. fit () 메소드 내부에 있는 eval_metric 파라미터와, verbose 파라미터를 이용하면 평가 산식을 원하는 산식으로 설정하고, 모델이 학습과 검증을 진행하며 그 과정을 출력 할 수 있습니다. eval_metric = "원하는 평가산식" 을 넣어주시면 학습을 진행하며 지정해주신 평가 산식과 검증 데이터 셋을 이용해 결과 값을 출력해줍니다. 또한 verbose = "10" 과 같이 파라미터를 지정해주면 n_estimators를 기준으로 10번 마다 결과 값을 출력 하게 됩니다. # LightGBM을 이용해 학습 및 검증 진행 from lightgbm import LGBMRegressor model = LGBMRe..

train_test_split / LGBM (1)

학습에 사용 할 모델은 Light GBM 입니다. Light GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. 이때 fit() 메소드 내부에 다음과 같이 파라미터를 적용해주면 모델이 학습을 하면서 validation 데이터를 이용해 계속 검증을 진행 합니다. model.fit(x_train, y_train, eval_set = [(x_train,y_train),(x_valid,y_valid)] ) #train_test_split() 메소드를 이용해 train/validation 데이터 나누기 # stratify 옵션을 활용하여 데이터 셋 split x_train,x_valid, y_train, y_valid = train_test_split(train_x,train['categor..

train_test_split() - (4)

stratify: stratify 파라미터는 분류 문제를 다룰 때 매우 중요하게 활용되는 파라미터 값 입니다. stratify 값으로는 target 값을 지정해주면 됩니다. stratify값을 target 값으로 지정해주면 target의 class 비율을 유지 한 채로 데이터 셋을 split 하게 됩니다. 만약 이 옵션을 지정해주지 않고 classification 문제를 다룬다면, 성능의 차이가 많이 날 수 있습니다. # 라이브러리 로딩 from sklearn.model_selection import train_test_split #train_test_split() 메소드를 이용해 train/validation 데이터 나누기 # stratify 옵션을 활용하여 데이터 셋 split x_train,x_va..

train_test_split() - (3)

train_test_split() 메소드의 test_size 파라미터와 shuffle 파라미터 에 대해 알아보겠다. test_size = test data(validation data) 구성의 비율을 나타낸다. train_size의 옵션과 반대 관계에 있는 옵션 값이며, 주로 test_size 파라미터를 지정해준다. test_size = 0.2로 지정하면 전체 데이터 셋의 20%를 test(validation) 셋으로 지정하겠다는 의미입니다. default 값은 0.25입니다. shuffle: 데이터를 split 하기 이전에 섞을지 말지 여부에 대해 지정해주는 파라미터입니다. default = True입니다. # 라이브러리 로딩 from sklearn.model_selection import train_..

train_test_split() - (2)

train_test_split()을 이용한 train / validation(test) 분리 train_test_split 함수를 통해 단 1줄로 깔끔하게 분리할 수 있다. 패키지는 sklearn.model_selection에 있습니다. train_test_split 메소드는 총 4개의 값을 반환하고 2개의 값을 필수적으로 채워주어야 합니다. 반환하는 값은 학습에 사용할 X,y 값, 검증에 사용할 X,y 값 이렇게 총 4개의 값을 반환하고, 입력값으로는 원본 데이터의 X,y를 채워주어야 합니다. #라이브러리 로딩 from sklearn.model_selection import train_test_split X = train_x y = train['category'] X_train, X_test, y_tr..

하이퍼파라미터 튜닝 / grid search

하이퍼 파라미터란 모델 정의시 사람이 직접 지정 해주는 값 이라고 이전 시간에 설명 드렸습니다. Grid Search Grid Search란 하이퍼 파라미터로 지정할 수 있는 값들을 순차적으로 입력한뒤 가장 높은 성능을 보이는 하이퍼 파라미터를 찾는 탐색 방법입니다. 예를 들어 Grid Search 를 통해 모델 깊이와 모델 넓이 라는 두개의 하이퍼 파라미터를 튜닝 한다고 가정해봅시다. 우선, 하이퍼 파라미터로 지정할 값들을 다음과 같이 설정해 줍니다. 모델 깊이 = [1, 2, 3] , 모델 넓이 = [a, b] 모델 깊이는 1 ,2, 3 중 하나의 값이고, 모델 넓이는 a, b 중 하나의 값으로 지정 하고자 합니다. grid search를 이용한다면 다음 순서대로 하이퍼 파라미터를 지정해 학습과 검증..

파이썬 파라미터/하이퍼파라미터

우선 모델 튜닝하기전에 한가지 개념을 짚고 넘어가겠습니다. 바로 파라미터(Parameter)와 하이퍼 파라미터(Hyper parameter) 입니다. 파라미터(Parameter, 매개변수) 파라미터(parameter, 매개변수)는 학습 과정에서 생성되는 변수들입니다. 예를 들어 한 학년에 속해 있는 학생들의 키에 대한 정규분포를 그린다고 하면, 평균과 표준편차가 계산 될 것입니다. 여기서 평균과 표준편차가 파라미터(Parameter, 매개변수) 입니다. 파라미터는 데이터를 통해 구해지며, 모델 내부적으로 결정되는 값입니다. 사용자가 임의로 설정하는 값이 아닙니다. LGBM 모델과 딥러닝 모델의 학습 가중치들이 파라미터에 해당됩니다. 하이퍼 파라미터(Hyper parameter) 하이퍼 파라미터는 모델링할..

train_test_split / LGBM - (2)

이전시간에는 train_test_split() 으로 데이터셋을 split 하고 해당 데이터 셋을 이용해 모델을 학습하고 검증하는 방법에 대해 알아 보았습니다. 이번시간에는 거기에 더해 검증하는 평가 산식을 원하는 산식으로 설정하고, 모델이 학습과 검증을 진행하며 그 과정을 출력 할 수 있는 방법에 대해 알아보겠습니다. 학습에 사용 할 모델은 Light GBM 입니다. ight GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. fit () 메소드 내부에 있는 eval_metric 파라미터와, verbose 파라미터를 이용하면 평가 산식을 원하는 산식으로 설정하고, 모델이 학습과 검증을 진행하며 그 과정을 출력 할 수 있습니다. eval_metric = "원하는 평가산식" 을 넣어주시..

300x250
300x250