'빅데이터 관련 자료' 카테고리의 글 목록 (16 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

train_test_split() - (3)

이번시간에는 train_test_split() 메소드의 test_size 파라미터와 shuffle 파라미터 에 대해 알아보겠습니다. test_size: test data(validation data) 구성의 비율을 나타냅니다. train_size의 옵션과 반대 관계에 있는 옵션 값이며, 주로 test_size 파라미터를 지정 해줍니다. test_size = 0.2 로 지정 하면 전체 데이터 셋의 20%를 test(validation) 셋으로 지정하겠다는 의미입니다. default 값은 0.25 입니다. shuffle: 데이터를 split 하기 이전에 섞을지 말지 여부에 대해 지정해주는 파라미터 입니다. default = True 입니다. # 라이브러리 로딩 from sklearn.model_selecti..

train_test_split() - (2)

train_test_split()을 이용한 train / validation(test) 분리 train_test_split 함수를 통해 단 1줄로 깔끔하게 분리할 수 있습니다. 패키지는 sklearn.model_selection에 있습니다. train_test_split 메소드는 총 4개의 값을 반환하고 2개의 값을 필수적으로 채워주어야 합니다. 반환 하는 값은 학습에 사용할 X,y 값, 검증에 사용할 X,y 값 이렇게 총 4개의 값을 반환하고, 입력값으로는 원본 데이터의 X,y을 채워주어야 합니다. # 라이브러리 로딩 from sklearn.model_selection import train_test_split x_train,x_valid, y_train, y_valid = train_test_spli..

서브 쿼리(Sub Query)

서브 쿼리는 SELECT 문 안에 또 다른 SELECT 문이 있는 명령어입니다. 가장 많이 쓰이는 것은 FROM 절 서브쿼리 실습 코드 USE PRACTICE; /***************SELECT절 서브 쿼리***************/ /* SELECT 명령문 안에 SELECT 명령문 */ SELECT * ,(SELECT GENDER FROM CUSTOMER WHERE A.MEM_NO = MEM_NO) AS GENDER FROM SALES AS A; /* 확인 */ SELECT * FROM CUSTOMER WHERE MEM_NO = '1000970'; /* SELECT절 서브 쿼리 vs 테이블 결합(JOIN) 처리 속도 비교 */ SELECT A.* ,B.GENDER FROM SALES AS A ..

train_test_split - (1)

모델링 과정에서 가장 먼저 알아볼 것은 바로 train_test_split() 메소드입니다. train_test_split() 메소드는 데이터 셋을 train_set과 test_set으로 손쉽게 분리할 수 있게 도와주는 메소드입니다. train / test 데이터 셋을 분리하는 이유 먼저, train/test를 분리하는 목적에 대해 정확히 이해해야 합니다. 용어를 정확히 하자면 train/test가 아니라 train/validation이 맞는 표현입니다. 머신러닝 모델에 train 데이터를 학습 시킨 후 test 데이터를 모델로 예측했을 경우 성능이 생각보다 낮게 나오는 경우가 발생합니다. 이러한 현상을 보통 Overfitting 되었다고 합니다. 이미지 출처 : educative.io 즉, 현재 모델이..

TF-IDF(Term Frequency - Inverse Document Frequency) - (2)

이번 시간에는 TF-IDF를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다. 실습 순서는 다음과 같습니다. train 데이터를 이용해 TF-IDF 학습(fit) 학습(fit) 된 TF-IDF를 이용해 train 데이터 변환(transform) train 데이터로 학습(fit) 된 TF-IDF를 이용해 test 데이터 변환(transform) 그럼 바로 실습을 진행해보도록 하겠습니다 #라이브러리 로딩 from sklearn.feature_extraction.text import TfidVectorizer #TF-IDF으로 train 데이터를 피처 벡터화 변환 수행 vect = TfidfVectorizer() vect = TfidfVectorizer() vext.fit(train['data']..

TF-IDF(Term Frequency - Inverse Document Frequency) - (1)

이번시간에는 BOW의 TF-IDF(Term Frequency - Inverse Document Frequency)에 대해 알아 보겠습니다. 이전에 설명한 카운트 기반 벡터화는 숫자가 높을수록 중요한 단어로 인식합니다. 하지만, 단순히 단어의 빈도만 고려한다면 모든 문서에서 자주 쓰일 수 밖에 없는 단어들이 중요하다고 인식 될 수 있습니다. 이런 문제를 보완하기 위해 TF-IDF 벡터화를 사용합니다. TF-IDF는 개별 문서에서 자주 등장하는 단어에는 높은 가중치를, 모든 문서에서 자주 등장하는 단어에 대해서는 패널티를 주는 방식으로 값을 부여합니다. 예를 들어 총 5개의 문서가 있다고 가정하면, 딥러닝이라는 단어는 5개 문서에서 모두 등장하고, 머신러닝이라는 단어는 1번 문서에서만 빈번히 등장한다고 했을..

테이블 결합(JOIN)

테이블 결합(JOIN) 관계는 1:1, 1:N, N:N 세가지 형태로, 테이블 간의 연결이 가능하다는 것을 의미합니다. 테이블 결합(JOIN)은 두 테이블 관계를 활용하여 테이블을 결합하는 명령어입니다. 테이블 결합을 통해 여러 테이블을 활용하여 분석이 가능합니다. ERM은 개체 관계 모델링이며, 관계형 데ㅣ터 베이스에 텡블을 모델링할 때 사용됩니다. 개체: 하나 이상의 속성으로 구성된 객체 관계: 속서들 간의 관계 ERD은 개체 간의 관계를 도표로 표현할 때 사용됩니다. INNER JOIN: 두 테이블의 공통 값이 매칭되는 데이터 결합 LEFT JOIN: 두 테이블의 공통 값이 매칭되는 데이터만 결합 + 왼쪽 테이블의 매칭되지 않는 데이터는 NULL RIGHT JOIN: 두 테이블의 공통 값이 매칭되는..

데이터 조회(SELECT)

데이터 조회(SELECT) 데이터 조회는 데이터 조작어(DML)이며, 가장 많이 사용됩니다. 데이터 조회는 여러 절들과 함께 사용되어 분석에 필요한 데이터를 조회합니다. 실습 코드 USE PRACTICE; /***************FROM***************/ /* Customer 테이블 모든 열 조회 */ SELECT * FROM CUSTOMER; /***************WHERE***************/ /* 성별이 남성 조건으로 필터링 */ SELECT * FROM CUSTOMER WHERE GENDER = 'MAN'; /***************GROUP BY***************/ /* 지역별로 회원수 집계 */ SELECT ADDR ,COUNT(MEM_NO) AS 회..

300x250
300x250