머신러닝 모델의 성능을 평가하는 것은 매우 중요합니다. 특히 분류 문제에서는 단순한 **정확도(Accuracy)**만으로는 충분하지 않기 때문에, 다양한 지표를 함께 고려해야 합니다. 이 글에서는 대표적인 분류 모델 평가 지표 4가지를 설명합니다.
1. 정확도 (Accuracy)
정의: 전체 데이터 중에서 모델이 정답을 맞춘 비율
공식:
Accuracy = (TP + TN) / (TP + FP + FN + TN)
- TP: True Positive
- TN: True Negative
- FP: False Positive
- FN: False Negative
장점: 직관적이고 이해하기 쉬움
단점: 클래스 불균형 데이터에서는 왜곡된 결과를 줄 수 있음
2. 정밀도 (Precision)
정의: 모델이 Positive라고 예측한 것 중에서 실제로도 Positive인 비율
공식:
Precision = TP / (TP + FP)
활용: 잘못된 Positive 예측이 큰 비용을 유발하는 경우 (예: 스팸메일 필터링)
3. 재현율 (Recall, Sensitivity)
정의: 실제 Positive 중에서 모델이 Positive로 정확히 예측한 비율
공식:
Recall = TP / (TP + FN)
활용: 놓치면 안 되는 경우에 중요 (예: 암 진단)
4. F1 Score
정의: 정밀도와 재현율의 조화 평균 (둘 사이의 균형)
공식:
F1 = 2 * (Precision * Recall) / (Precision + Recall)
활용: 정밀도와 재현율을 동시에 고려해야 하는 상황에 유용
정리 표
지표 의미 민감한 상황 예시
Accuracy | 전체 중 정답 맞춘 비율 | 클래스 비율이 비슷할 때 |
Precision | 예측한 Positive 중 실제 Positive 비율 | 스팸 필터링, 금융 사기 탐지 등 |
Recall | 실제 Positive 중 예측 성공한 비율 | 질병 진단, 결함 감지 등 |
F1 Score | Precision과 Recall의 균형 | 성능 균형이 중요한 상황 |
결론
모델의 목적과 데이터 특성을 고려해 적절한 지표를 선택해야 합니다. 한 가지 지표만 보는 것이 아닌, 여러 지표를 종합적으로 해석하는 것이 현명한 모델 평가 방법입니다.
https://link.coupang.com/a/cpQy6K
머신 러닝 교과서 with 파이썬 사이킷런 텐서플로 개정 3판 - 클라우드/빅데이터 | 쿠팡
쿠팡에서 머신 러닝 교과서 with 파이썬 사이킷런 텐서플로 개정 3판 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 클라우드/빅데이터 제품도 바로 쿠팡에서 확인할 수 있습니다.
www.coupang.com
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
'빅데이터 관련 자료 > Machine Learning' 카테고리의 다른 글
회귀 모델 평가 지표 정리 (1) | 2025.05.06 |
---|---|
혼동 행렬(Confusion Matrix) 해석 (0) | 2025.05.05 |
머신러닝 vs 딥러닝: 무엇이 다를까? (0) | 2025.05.03 |
앙상블 기법 비교: Bagging vs Boosting (2) | 2025.05.02 |
머신러닝 대표 알고리즘 정리 (1) | 2025.05.01 |