320x100
이번 시간과 다음 시간에는 형태소 분석기를 이용해 청와대 청원 데이터의 형태소를 분석하고 데이터의 형태소 중 조사를 제거하는 실습을 진행 해보도록 하겠습니다.
데이터에서 조사를 제거하는 이유는 조사는 큰 의미를 가지고 있지 않기 때문에 오히려 분석에 방해가 될 수 있습니다.
실습 순서는 다음과 같습니다.
- 텍스트 데이터의 형태소 별로 분리
- 형태소가 조사인 글자를 제외 하여 새로운 텍스트 생성
- 기존의 텍스트 데이터를 새로운 텍스트로 변경
# 조사를 제거하기 위함 함수 정의
def func(text):
#형태소 분석
okt_pos = okt.pos(str(text),norm=True,stem=True)
#조사를 제거한 새로운 문자열 정의
new_word=''
for word, pos in okt_pos:
#품사가 조사가 아니면
if pos != 'Josa':
#new_word+=word
return new_word
train['data'] = train['data'].apply(lambda x: func(x))
test['data'] = test['data'].apply(lambda x:func(x))
https://link.coupang.com/a/cpQt5T
2025 시대에듀 빅데이터분석기사 필기 한권으로 끝내기 정혜정 - 공인회계사 | 쿠팡
쿠팡에서 2025 시대에듀 빅데이터분석기사 필기 한권으로 끝내기 정혜정 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 공인회계사 제품도 바로 쿠팡에서 확인할 수 있습니다.
www.coupang.com
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
320x100
320x100
'빅데이터 관련 자료' 카테고리의 다른 글
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 2 (0) | 2021.12.29 |
---|---|
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 1 (0) | 2021.12.28 |
형태소 분석기 - (2) 종류 및 실습 (0) | 2021.11.10 |
형태소 분석기 - (1) (0) | 2021.11.09 |
데이터 결측치 확인하기 - (isnull().sum()) | 파이썬 | 판다스 (0) | 2021.10.31 |