형태소 분석기 - (1)
잡학다식의 지식공방

빅데이터 관련 자료

형태소 분석기 - (1)

carpe08 2021. 11. 9. 20:32
320x100

형태소 분석기란?

자연어 처리의 첫걸음, 형태소 분석

여러분, 이런 문장을 본 적 있으신가요?

“아버지가방에들어가신다.”

이 문장을 읽으면 잠깐 멈칫하게 됩니다.
‘아버지가 방에 들어가신다’일까요? 아니면 ‘아버지 가방에 들어가신다’일까요?

바로 이런 언어적 혼동을 해결하기 위해 필요한 것이 형태소 분석입니다.


형태소 분석이란?

형태소 분석은 한 문장에서 어근, 접두사·접미사, 조사, 품사 등 다양한 언어 구성 요소를 잘게 나누고 그 속성을 분석하는 작업입니다. 다시 말해, 언어의 뼈대와 살을 구분하는 과정이라 할 수 있죠.

왜 이런 분석이 필요할까요?

그 이유는 바로 언어의 모호성 때문입니다.
앞서 예시처럼 문장의 의미가 상황에 따라 달라질 수 있기 때문인데요, 이런 애매함을 줄이려면 정확한 문장 구조 파악이 필수입니다.


그럼 모호성은 어떻게 해결할 수 있을까요?

문장만 봐서는 알기 어렵기 때문에, 우리는 ‘통계 정보’를 활용합니다. 예를 들어,

  • ‘아버지’라는 단어 뒤에 ‘가’가 붙을 확률이 50%
  • ‘가방’이라는 단어가 올 확률은 10%

이런 통계적 정보를 가지고 판단을 내리는 것이죠.
즉, 형태소 단위로 쪼개서 확률 기반의 판단을 가능하게 하는 겁니다.


형태소 분석기의 역할

한국어는 특히 복잡하고 변화가 많은 언어라, 형태소 분석기의 도움이 꼭 필요합니다.
형태소 분석기는 미리 계산해 둔 방대한 언어 데이터를 기반으로 문장을 나누고, 각 단어의 역할을 알려줍니다.

예를 들어, ‘아버지가방에들어가신다’를 형태소 분석기에 넣으면 다음과 같이 나뉠 수 있습니다:

  • 아버지/명사 + 가/조사 + 방/명사 + 에/조사 + 들어가/동사 + 신다(조사), .(마침표)

이렇게 분석 결과를 바탕으로 적절한 해석과 띄어쓰기를 도출할 수 있게 되는 것이죠.


대표적인 한국어 형태소 분석기

현재 널리 사용되는 대표적인 형태소 분석기로는 다음과 같은 도구들이 있습니다:

  • Okt (Open Korean Text)
  • Komoran
  • Kkma
  • Mecab

각 도구마다 특징과 장단점이 다르며, 사용하는 목적에 따라 선택이 달라지기도 합니다.

 

https://link.coupang.com/a/cpQrvf

 

빅데이터가 만드는 제4차 산업혁명:개인과 기업은 어떻게 대응할 것인가? - 트렌드/미래예측 | 쿠

쿠팡에서 빅데이터가 만드는 제4차 산업혁명:개인과 기업은 어떻게 대응할 것인가? 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 트렌드/미래예측 제품도 바로 쿠팡에서 확인할 수 있

www.coupang.com

 

 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

320x100
320x100