- 형태소 분석기
우선 형태소 분석이란 '형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것입니다. 형태소분석은 왜 필요한 걸까요? 그것은 언어의 '모호성' 때문입니다. 예시를 살펴보며 알아보겠습니다. 아래 문장의 띄어쓰기를 고쳐야 한다고 가정해봅시다.
"아버지가방에들어가신다."
위 문장은 띄어쓰기 경계가 모호합니다. "아버지가 방에 들어가신다."로 해석 될 수도 있고 "아버지 가방에 들어가신다."로 해석 될 수도 있기 때문입니다.
이 차이를 구분하기 위해서는 문장 뿐만이 아니라, 추가적인 정보가 필요합니다.
일반적으로, "가방에 들어가신다" 라는 표현보다는 "방에 들어가신다"라는 표현을 훨씬 더 많이 사용합니다. 그렇다면, 띄어쓰기는 "아버지가 방에 들어가신다."로 하는 것이 더 적절하겠죠.
즉, 언어적 모호성을 해결하기 위해서는 통계 정보가 필요하다는 것입니다.
그런데, 문장 단위로 통계를 내려니 경우의 수가 너무나 많습니다. 따라서, 모든 말의 통계 정보를 효과적으로 계산하기 위해선 형태소 단위의 정리가 필요합니다. 예를 들어 '아버지'라는 명사 뒤에 '가'라는 조사가 나올 확률이 50%, '가방'이라는 명사가 나올 확률이 10%라고 정리를 해 놓으면, 판단이 쉬워지는 것이죠.
한국어 형태소 분석기의 역할은 보통 여기까지 입니다. 미리 계산해 놓은 통계 정보를 바탕으로 문장에 쓰인 형태소들의 정체가 무엇인지 표시해주는 것입니다. 예를 들어 위 문장을 형태소 분석기에 넣고 돌리면, 아래와 비슷한 결과가 나올 것입니다.
이렇게 한글 텍스트의 형태소를 분석해주는 형태소 분석기로는 Okt, Komoran, Kkma, Mecab 등이 있습니다.
다음 시간에는 4개의 형태소 분석기를 이용해 직접 형태소를 분석해보도록 하겠습니다.
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
형태소 분석기 - (3) (0) | 2021.11.11 |
---|---|
형태소 분석기 - (2) (0) | 2021.11.10 |
특정 텍스트 제거 - (5) (0) | 2021.11.08 |
특정 텍스트 제거 - (4) (0) | 2021.11.07 |
특정 텍스트 제거 - (3) (0) | 2021.11.06 |