320x100
320x100
이번 시간에는 CountVectorizer를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다.
실습 순서는 다음과 같습니다.
- train 데이터를 이용해 CountVectorizer 학습(fit)
- 학습(fit) 된 CountVectorizer를 이용해 train 데이터 변환(transform)
- train 데이터로 학습(fit) 된 CountVectorizer를 이용해 test 데이터 변환(transform)
그럼 바로 실습을 진행해보도록 하겠습니다
from sklearn.featrue_extraction.text import CounterVectorizer
#Count Vectorization으로 train 데이터를 피처 벡터화 변환 수행
vect = CounterVector()
vect.fit(train['data'])
train_x = vect.transform(train['data'])
print('train 데이터 사이즈', train_x.shape)
#train Data로 fit()된 ConVectorizer를 이용해 테스트 데이터를 Feature Vector화 변환 수행
test_x = vect.transform(test['data'])
print('test 데이터 사이즈',test_x.shape)
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
TF-IDF(Term Frequency - Inverse Document Frequency) - (2) (0) | 2021.11.19 |
---|---|
TF-IDF(Term Frequency - Inverse Document Frequency) - (1) (0) | 2021.11.18 |
CountVectorizer - (1) (0) | 2021.11.15 |
Bag of Words (0) | 2021.11.12 |
형태소 분석기 - (3) (0) | 2021.11.11 |