혼동 행렬은 분류 모델의 성능을 보다 직관적이고 상세하게 분석할 수 있는 도구입니다. 모델의 예측 결과를 실제 정답과 비교하여 4가지 요소로 구분함으로써, 정밀도(Precision), 재현율(Recall), 정확도(Accuracy) 등의 지표 계산의 기반이 됩니다.
혼동 행렬이란?
이진 분류(Binary Classification) 문제에서 혼동 행렬은 다음과 같이 구성됩니다:
실제 \ 예측 Positive (1) Negative (0)
Positive (1) | TP (True Positive) | FN (False Negative) |
Negative (0) | FP (False Positive) | TN (True Negative) |
각 요소의 의미:
- TP (참긍정): 실제도 Positive, 예측도 Positive
- TN (참부정): 실제도 Negative, 예측도 Negative
- FP (거짓긍정): 실제는 Negative인데 예측은 Positive
- FN (거짓부정): 실제는 Positive인데 예측은 Negative
혼동 행렬로부터 파생되는 평가 지표
- 정확도(Accuracy): 전체 중 맞춘 비율
(TP + TN) / (TP + TN + FP + FN)
- 정밀도(Precision): Positive라고 예측한 것 중 실제 Positive 비율
TP / (TP + FP)
- 재현율(Recall): 실제 Positive 중에서 Positive로 예측한 비율
TP / (TP + FN)
- F1 Score: 정밀도와 재현율의 조화 평균
2 * (Precision * Recall) / (Precision + Recall)
예시 혼동 행렬 해석
| 실제 \ 예측 | 1 (Positive) | 0 (Negative) |
|--------------|--------------|--------------|
| 1 (Positive) | 70 (TP) | 30 (FN) |
| 0 (Negative) | 20 (FP) | 80 (TN) |
이 경우:
- 정확도 = (70 + 80) / (70 + 80 + 20 + 30) = 75%
- 정밀도 = 70 / (70 + 20) = 77.8%
- 재현율 = 70 / (70 + 30) = 70%
- F1 Score ≈ 73.7%
멀티클래스 혼동 행렬
이진 분류를 넘어 다중 클래스 분류(Multiclass Classification) 문제에서도 혼동 행렬은 유용합니다. 각 클래스별로 예측 결과를 비교해 모델이 어떤 클래스에서 혼동을 많이 하는지 시각적으로 파악할 수 있습니다.
결론
혼동 행렬은 단순한 정확도 이상의 통찰을 제공합니다. 특히 정밀도와 재현율의 균형을 봐야 하는 분야(의료, 금융 등)에서는 필수적인 도구입니다. 모델의 오류 유형을 세분화하여 이해하고, 개선 방향을 설정하는 데 큰 도움이 됩니다.
https://link.coupang.com/a/cpQy6K
머신 러닝 교과서 with 파이썬 사이킷런 텐서플로 개정 3판 - 클라우드/빅데이터 | 쿠팡
쿠팡에서 머신 러닝 교과서 with 파이썬 사이킷런 텐서플로 개정 3판 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 클라우드/빅데이터 제품도 바로 쿠팡에서 확인할 수 있습니다.
www.coupang.com
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
'빅데이터 관련 자료 > Machine Learning' 카테고리의 다른 글
회귀 모델 평가 지표 정리 (1) | 2025.05.06 |
---|---|
모델 성능 평가 지표 정리 (0) | 2025.05.04 |
머신러닝 vs 딥러닝: 무엇이 다를까? (0) | 2025.05.03 |
앙상블 기법 비교: Bagging vs Boosting (2) | 2025.05.02 |
머신러닝 대표 알고리즘 정리 (1) | 2025.05.01 |