혼동 행렬(Confusion Matrix) 해석
잡학다식의 지식공방

IT/Machine Learning

혼동 행렬(Confusion Matrix) 해석

carpe08 2025. 5. 5. 14:38
320x100

혼동 행렬은 분류 모델의 성능을 보다 직관적이고 상세하게 분석할 수 있는 도구입니다. 모델의 예측 결과를 실제 정답과 비교하여 4가지 요소로 구분함으로써, 정밀도(Precision), 재현율(Recall), 정확도(Accuracy) 등의 지표 계산의 기반이 됩니다.


혼동 행렬이란?

이진 분류(Binary Classification) 문제에서 혼동 행렬은 다음과 같이 구성됩니다:

실제 \ 예측 Positive (1) Negative (0)

Positive (1) TP (True Positive) FN (False Negative)
Negative (0) FP (False Positive) TN (True Negative)

각 요소의 의미:

  • TP (참긍정): 실제도 Positive, 예측도 Positive
  • TN (참부정): 실제도 Negative, 예측도 Negative
  • FP (거짓긍정): 실제는 Negative인데 예측은 Positive
  • FN (거짓부정): 실제는 Positive인데 예측은 Negative

혼동 행렬로부터 파생되는 평가 지표

  • 정확도(Accuracy): 전체 중 맞춘 비율
(TP + TN) / (TP + TN + FP + FN)
  • 정밀도(Precision): Positive라고 예측한 것 중 실제 Positive 비율
TP / (TP + FP)
  • 재현율(Recall): 실제 Positive 중에서 Positive로 예측한 비율
TP / (TP + FN)
  • F1 Score: 정밀도와 재현율의 조화 평균
2 * (Precision * Recall) / (Precision + Recall)

예시 혼동 행렬 해석

| 실제 \ 예측 | 1 (Positive) | 0 (Negative) |
|--------------|--------------|--------------|
| 1 (Positive) | 70 (TP)      | 30 (FN)      |
| 0 (Negative) | 20 (FP)      | 80 (TN)      |

이 경우:

  • 정확도 = (70 + 80) / (70 + 80 + 20 + 30) = 75%
  • 정밀도 = 70 / (70 + 20) = 77.8%
  • 재현율 = 70 / (70 + 30) = 70%
  • F1 Score ≈ 73.7%

멀티클래스 혼동 행렬

이진 분류를 넘어 다중 클래스 분류(Multiclass Classification) 문제에서도 혼동 행렬은 유용합니다. 각 클래스별로 예측 결과를 비교해 모델이 어떤 클래스에서 혼동을 많이 하는지 시각적으로 파악할 수 있습니다.


결론

혼동 행렬은 단순한 정확도 이상의 통찰을 제공합니다. 특히 정밀도와 재현율의 균형을 봐야 하는 분야(의료, 금융 등)에서는 필수적인 도구입니다. 모델의 오류 유형을 세분화하여 이해하고, 개선 방향을 설정하는 데 큰 도움이 됩니다.


https://link.coupang.com/a/cpQy6K

 

머신 러닝 교과서 with 파이썬 사이킷런 텐서플로 개정 3판 - 클라우드/빅데이터 | 쿠팡

쿠팡에서 머신 러닝 교과서 with 파이썬 사이킷런 텐서플로 개정 3판 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 클라우드/빅데이터 제품도 바로 쿠팡에서 확인할 수 있습니다.

www.coupang.com

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

 

320x100
320x100