형태소 분석기 - (3)
잡학다식의 지식공방

빅데이터 관련 자료

형태소 분석기 - (3)

carpe08 2021. 11. 11. 14:58
320x100

이번 시간과 다음 시간에는 형태소 분석기를 이용해 청와대 청원 데이터의 형태소를 분석하고 데이터의 형태소 중 조사를 제거하는 실습을 진행 해보도록 하겠습니다.

데이터에서 조사를 제거하는 이유는 조사는 큰 의미를 가지고 있지 않기 때문에 오히려 분석에 방해가 될 수 있습니다.

실습 순서는 다음과 같습니다.

  1. 텍스트 데이터의 형태소 별로 분리
  2. 형태소가 조사인 글자를 제외 하여 새로운 텍스트 생성
  3. 기존의 텍스트 데이터를 새로운 텍스트로 변경
# 조사를 제거하기 위함 함수 정의 

def func(text):
	#형태소 분석
    okt_pos = okt.pos(str(text),norm=True,stem=True)
    
    #조사를 제거한 새로운 문자열 정의
    new_word=''
    
    for word, pos in okt_pos:
    	#품사가 조사가 아니면
        if pos != 'Josa':
        	#new_word+=word
 	return new_word
    
train['data'] = train['data'].apply(lambda x: func(x))
test['data'] = test['data'].apply(lambda x:func(x))

 

https://link.coupang.com/a/cpQt5T

 

2025 시대에듀 빅데이터분석기사 필기 한권으로 끝내기 정혜정 - 공인회계사 | 쿠팡

쿠팡에서 2025 시대에듀 빅데이터분석기사 필기 한권으로 끝내기 정혜정 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 공인회계사 제품도 바로 쿠팡에서 확인할 수 있습니다.

www.coupang.com

포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

320x100
320x100