형태소 분석기 - (3)
Data Analyst

빅데이터 관련 자료/Dacon

형태소 분석기 - (3)

carpe08 2021. 11. 11. 14:58
320x100
320x100

이번 시간과 다음 시간에는 형태소 분석기를 이용해 청와대 청원 데이터의 형태소를 분석하고 데이터의 형태소 중 조사를 제거하는 실습을 진행 해보도록 하겠습니다.

데이터에서 조사를 제거하는 이유는 조사는 큰 의미를 가지고 있지 않기 때문에 오히려 분석에 방해가 될 수 있습니다.

실습 순서는 다음과 같습니다.

  1. 텍스트 데이터의 형태소 별로 분리
  2. 형태소가 조사인 글자를 제외 하여 새로운 텍스트 생성
  3. 기존의 텍스트 데이터를 새로운 텍스트로 변경
# 조사를 제거하기 위함 함수 정의 

def func(text):
	#형태소 분석
    okt_pos = okt.pos(str(text),norm=True,stem=True)
    
    #조사를 제거한 새로운 문자열 정의
    new_word=''
    
    for word, pos in okt_pos:
    	#품사가 조사가 아니면
        if pos != 'Josa':
        	#new_word+=word
 	return new_word
    
train['data'] = train['data'].apply(lambda x: func(x))
test['data'] = test['data'].apply(lambda x:func(x))
320x100
320x100

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

CountVectorizer - (1)  (0) 2021.11.15
Bag of Words  (0) 2021.11.12
형태소 분석기 - (2)  (0) 2021.11.10
형태소 분석기 - (1)  (0) 2021.11.09
특정 텍스트 제거 - (5)  (0) 2021.11.08