빅데이터 관련 자료
형태소 분석기 - (2) 종류 및 실습
carpe08
2021. 11. 10. 11:11
320x100
이번 시간에는 형태소 분석기의 다양한 종류를 알아보고, 실제로 텍스트를 분석하여 각각 어떤 방식으로 형태소를 분리하는지 비교해보겠습니다.
형태소 분석기를 여러 개 사용하는 이유는 텍스트의 특성에 따라 성능이 뛰어난 분석기가 다르기 때문입니다. 따라서 실습을 통해 각 도구의 특성을 파악하고, 자신의 데이터에 맞는 도구를 선택하는 것이 중요합니다.
이번 실습에서 사용할 분석기는 다음 세 가지입니다:
- Okt
- Komoran
- Kkma
실습 순서
- 라이브러리 설치
- 형태소 분석기 정의
- 텍스트 정의 및 분석 수행
1. 라이브러리 설치 및 불러오기
세 분석기는 모두 konlpy 라이브러리를 통해 사용할 수 있습니다.
from konlpy.tag import Kkma, Komoran, Okt
# 형태소 분석기 객체 정의
otk = Okt()
kkm = Kkma()
kom = Komoran()
2. 형태소 분석할 텍스트 정의
text = '마음에 꽂힌 칼한자루 보다 마음에 꽂힌 꽃한송이가 더 아파서 잠이 오지 않는다'
3. 형태소 분석 실행
print("Komoran 결과:", kom.pos(text))
print("Kkma 결과:", kkm.pos(text))
print("Okt 결과:", okt.pos(text, norm=True, stem=True))
분석 결과 비교
Komoran
[('마음', 'NNG'), ('에', 'JKB'), ('꽂히', 'VV'), ('ㄴ', 'ETM'), ('칼', 'NNG'), ('한자', 'NNP'), ('루', 'JKB'),
('보다', 'MAG'), ('마음', 'NNG'), ('에', 'JKB'), ('꽂히', 'VV'), ('ㄴ', 'ETM'), ('꽃', 'NNG'),
('한송이', 'NNP'), ('가', 'JKS'), ('더', 'MAG'), ('아파서', 'NNP'), ('잠', 'NNG'),
('이', 'JKS'), ('오', 'VV'), ('지', 'EC'), ('않', 'VX'), ('는다', 'EC')]
Kkma
[('마음', 'NNG'), ('에', 'JKM'), ('꽂히', 'VV'), ('ㄴ', 'ETD'), ('칼', 'NNG'), ('한자', 'NNG'), ('로', 'JKM'),
('보다', 'MAG'), ('마음', 'NNG'), ('에', 'JKM'), ('꽂히', 'VV'), ('ㄴ', 'ETD'), ('꽃', 'NNG'),
('한', 'MDN'), ('송이', 'NNG'), ('가', 'JKS'), ('더', 'MAG'), ('아프', 'VA'), ('아서', 'ECD'),
('잠', 'NNG'), ('이', 'JKS'), ('오', 'VV'), ('지', 'ECD'), ('않', 'VXV'), ('는', 'EPT'), ('다', 'EFN')]
Okt
[('마음', 'Noun'), ('에', 'Josa'), ('꽂히다', 'Verb'), ('칼', 'Noun'), ('한', 'Determiner'),
('자루', 'Noun'), ('보다', 'Verb'), ('마음', 'Noun'), ('에', 'Josa'), ('꽂히다', 'Verb'),
('꽃', 'Noun'), ('한송이', 'Noun'), ('가', 'Josa'), ('더', 'Noun'), ('아프다', 'Adjective'),
('잠', 'Noun'), ('이', 'Josa'), ('오지', 'Noun'), ('않다', 'Verb')]
분석기별 특징 요약
- Komoran / Kkma: 형태소를 세밀하게 분리하여 조사, 어미, 접두어 등을 세분화합니다.
- Okt: stem=True, norm=True 옵션을 통해 표준형 단어로 변환하고 오타나 줄임말 보정 기능을 제공합니다. 예: '꽂힌 → 꽂히다', '아파서 → 아프다'
마무리
형태소 분석기의 결과는 각기 다르게 나타날 수 있으며, 분석 목적과 데이터 특성에 따라 적합한 도구를 선택하는 것이 중요합니다. 여러 분석기를 실험해보며 자신만의 기준을 마련해 보세요.
다음 시간에는 이 결과들을 실제 분류 모델에 어떻게 적용할 수 있는지 알아보겠습니다.
https://link.coupang.com/a/cpQt5T
2025 시대에듀 빅데이터분석기사 필기 한권으로 끝내기 정혜정 - 공인회계사 | 쿠팡
쿠팡에서 2025 시대에듀 빅데이터분석기사 필기 한권으로 끝내기 정혜정 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 공인회계사 제품도 바로 쿠팡에서 확인할 수 있습니다.
www.coupang.com
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
320x100
320x100