Lv3 | 모델링 | 교차 검증 정의 K-Fold

빅데이터 관련 자료/수학&x통계

Lv3 | 모델링 | 교차 검증 정의 K-Fold - 2 : 교차검증

carpe08 2021. 8. 22. 00:57

교차검증

K-Fold의 아이디어는 단순하다.

"모든 데이터를 최소한 한 번씩 다 학습하게 하자!"

그래서 valid 데이터를 겹치지 않게 나누어 N개의 데이터셋을 만들어 낸다.

만약 데이터셋을 5개로 만든다고 하면, (==valid size가 20%) 겹치지 않게 위와 같은 모양으로 만들 수 있다.

그리고 반복문을 통해서 1번부터 5번 데이터들에 들어갔다가 나오면서, 데이터를 모두 최소한 한번씩은 학습한다.

실습

# sklearn에 model_selection 부분 속 KFold를 불러와보세요
from sklearn.model_selection import KFold

# KFold에 n_splits = 5, shuffle = True, random_state = 0이라는 인자를 추가해 "kf"라는 변수에 저장해보세요
Kf=KFold(n_split=5, shuffle=True, random_state)

# 반복문을 통해서 1번부터 5번까지의 데이터에 접근해보세요
for train_idx, valid_idx in kf.split(train):
	train_data = train.iloc[train_idx]
    valid_data = trian.iloc[valid_idx]

320x100

저작자표시

'빅데이터 관련 자료 > 수학&x통계' 카테고리의 다른 글

Lv3 \| 튜닝 \| 그리드, 랜덤 서치 vs Bayesian Optimization (0)	2021.08.24
파이썬 데이터 분석을 위한 수학 & 통계 - 5회차 (0)	2021.08.23
파이썬 데이터 분석을 위한 수학 & 통계 - 4회차 (0)	2021.08.18
파이썬 데이터 분석을 위한 수학 & 통계 - 3회차 - 3 (0)	2021.08.17
파이썬 데이터 분석을 위한 수학 & 통계 - 3회차 - 2 (0)	2021.08.17

현재글Lv3 | 모델링 | 교차 검증 정의 K-Fold - 2 : 교차검증

250x250

데이콘, 다중공선성, hackerrank, KSQL, 파이썬, PostgreSQL, 머신러닝, 하이퍼파라미터, hadoop, Oracle SQL, Python, train_test_split, html 기초, kubernetes, 파이썬 기초, PySpark, 데이터분석, SQL, 해커랭크, 데이터 분석,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

이서's 잡학다식

Lv3 | 모델링 | 교차 검증 정의 K-Fold - 2 : 교차검증

'빅데이터 관련 자료 > 수학&x통계' 카테고리의 다른 글

'빅데이터 관련 자료/수학&x통계'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Lv3 | 모델링 | 교차 검증 정의 K-Fold - 2 : 교차검증

'빅데이터 관련 자료 > 수학&x통계' 카테고리의 다른 글

'빅데이터 관련 자료/수학&x통계'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역