형태소 분석기란?
자연어 처리의 첫걸음, 형태소 분석
여러분, 이런 문장을 본 적 있으신가요?
“아버지가방에들어가신다.”
이 문장을 읽으면 잠깐 멈칫하게 됩니다.
‘아버지가 방에 들어가신다’일까요? 아니면 ‘아버지 가방에 들어가신다’일까요?
바로 이런 언어적 혼동을 해결하기 위해 필요한 것이 형태소 분석입니다.
형태소 분석이란?
형태소 분석은 한 문장에서 어근, 접두사·접미사, 조사, 품사 등 다양한 언어 구성 요소를 잘게 나누고 그 속성을 분석하는 작업입니다. 다시 말해, 언어의 뼈대와 살을 구분하는 과정이라 할 수 있죠.
왜 이런 분석이 필요할까요?
그 이유는 바로 언어의 모호성 때문입니다.
앞서 예시처럼 문장의 의미가 상황에 따라 달라질 수 있기 때문인데요, 이런 애매함을 줄이려면 정확한 문장 구조 파악이 필수입니다.
그럼 모호성은 어떻게 해결할 수 있을까요?
문장만 봐서는 알기 어렵기 때문에, 우리는 ‘통계 정보’를 활용합니다. 예를 들어,
- ‘아버지’라는 단어 뒤에 ‘가’가 붙을 확률이 50%
- ‘가방’이라는 단어가 올 확률은 10%
이런 통계적 정보를 가지고 판단을 내리는 것이죠.
즉, 형태소 단위로 쪼개서 확률 기반의 판단을 가능하게 하는 겁니다.
형태소 분석기의 역할
한국어는 특히 복잡하고 변화가 많은 언어라, 형태소 분석기의 도움이 꼭 필요합니다.
형태소 분석기는 미리 계산해 둔 방대한 언어 데이터를 기반으로 문장을 나누고, 각 단어의 역할을 알려줍니다.
예를 들어, ‘아버지가방에들어가신다’를 형태소 분석기에 넣으면 다음과 같이 나뉠 수 있습니다:
- 아버지/명사 + 가/조사 + 방/명사 + 에/조사 + 들어가/동사 + 신다(조사), .(마침표)
이렇게 분석 결과를 바탕으로 적절한 해석과 띄어쓰기를 도출할 수 있게 되는 것이죠.
대표적인 한국어 형태소 분석기
현재 널리 사용되는 대표적인 형태소 분석기로는 다음과 같은 도구들이 있습니다:
- Okt (Open Korean Text)
- Komoran
- Kkma
- Mecab
각 도구마다 특징과 장단점이 다르며, 사용하는 목적에 따라 선택이 달라지기도 합니다.
https://link.coupang.com/a/cpQrvf
빅데이터가 만드는 제4차 산업혁명:개인과 기업은 어떻게 대응할 것인가? - 트렌드/미래예측 | 쿠
쿠팡에서 빅데이터가 만드는 제4차 산업혁명:개인과 기업은 어떻게 대응할 것인가? 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 트렌드/미래예측 제품도 바로 쿠팡에서 확인할 수 있
www.coupang.com
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
'빅데이터 관련 자료' 카테고리의 다른 글
형태소 분석기 - (3) (0) | 2021.11.11 |
---|---|
형태소 분석기 - (2) 종류 및 실습 (0) | 2021.11.10 |
데이터 결측치 확인하기 - (isnull().sum()) | 파이썬 | 판다스 (0) | 2021.10.31 |
index=False, 데이터를 저장할 때 index 제외하고 저장 (0) | 2021.10.29 |
구글 애널리틱스 이해 - 디지털마케팅과 구글애널리틱스 (0) | 2021.10.12 |