CountVectorizer

빅데이터 관련 자료/Dacon

CountVectorizer - (2)

carpe08 2021. 11. 16. 00:18

320x100

이번 시간에는 CountVectorizer를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다.

실습 순서는 다음과 같습니다.

train 데이터를 이용해 CountVectorizer 학습(fit)
학습(fit) 된 CountVectorizer를 이용해 train 데이터 변환(transform)
train 데이터로 학습(fit) 된 CountVectorizer를 이용해 test 데이터 변환(transform)

그럼 바로 실습을 진행해보도록 하겠습니다

from sklearn.featrue_extraction.text import CounterVectorizer

#Count Vectorization으로 train 데이터를 피처 벡터화 변환 수행
vect = CounterVector()
vect.fit(train['data'])
train_x = vect.transform(train['data'])

print('train 데이터 사이즈', train_x.shape)

#train Data로 fit()된 ConVectorizer를 이용해 테스트 데이터를 Feature Vector화 변환 수행

test_x = vect.transform(test['data'])
print('test 데이터 사이즈',test_x.shape)

320x100

저작자표시

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

TF-IDF(Term Frequency - Inverse Document Frequency) - (2) (0)	2021.11.19
TF-IDF(Term Frequency - Inverse Document Frequency) - (1) (0)	2021.11.18
CountVectorizer - (1) (0)	2021.11.15
Bag of Words (0)	2021.11.12
형태소 분석기 - (3) (0)	2021.11.11

현재글CountVectorizer - (2)

현업 데이터 분석가의 실무 및 일상 Story

250x250

데이터분석, 파이썬, html 기초, 다중공선성, 파이썬 기초, kubernetes, lgbm, hadoop, 데이콘, 머신러닝, hackerrank, train_test_split, 하이퍼파라미터, SQL 기초, KSQL, Oracle SQL, PySpark, SQL, Python, 해커랭크,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

이서

CountVectorizer - (2)

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

'빅데이터 관련 자료/Dacon'의 다른글

티스토리툴바

CountVectorizer - (2)

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

'빅데이터 관련 자료/Dacon'의 다른글

관련글

티스토리툴바