320x100
데이터 분석이나 통계 공부를 하다 보면 반드시 마주하게 되는 개념 중 하나가 가설검정(Hypothesis Testing)입니다.
하지만 H0니 p-value니 어려운 용어들 때문에 처음부터 벽을 느끼기 쉬운데요.
오늘은 가설검정에 사용되는 핵심 용어들을 정리해서, 여러분이 통계를 좀 더 자신 있게 다룰 수 있도록 도와드릴게요! 🙌
1. 가설(Hypothesis)
가설은 말 그대로 어떤 주장이나 예상이에요. 가설검정에서는 두 가지 가설을 세우고, 데이터로 검증합니다.
- 귀무가설 (H₀, Null Hypothesis)
👉 "차이가 없다", "효과가 없다"는 기본 전제
예: "이 약은 효과가 없다." - 대립가설 (H₁ 또는 Hₐ, Alternative Hypothesis)
👉 "차이가 있다", "효과가 있다"는 주장
예: "이 약은 효과가 있다."
📌 검정의 목적은 H₀를 기각할 수 있는지를 판단하는 것입니다.
2. 유의수준 (Significance Level, α)
- 일반적으로 **0.05 (5%)**로 설정
- 이는 **오탐(false positive)**을 허용하는 기준입니다.
즉, 실제로는 효과가 없는데 효과가 있다고 잘못 판단할 확률이 5% 이하가 되도록 하겠다는 의미입니다.
3. p-value (유의확률)
- 실제로 얻은 데이터에서 귀무가설이 참일 확률을 계산한 값
- p-value가 유의수준(α)보다 작으면 → 귀무가설 기각
- p-value가 유의수준보다 크면 → 귀무가설 채택(기각 못함)
✅ 예시:
p-value = 0.03, α = 0.05라면
👉 p < α이므로 → 통계적으로 유의하다 → 귀무가설 기각!
4. 1종 오류(Type I Error)
- 실제로는 효과가 없는데, 있다고 판단하는 오류
- 즉, 귀무가설이 맞는데 기각해버림
- 이 오류가 발생할 확률 = 유의수준 α
5. 2종 오류(Type II Error)
- 실제로는 효과가 있는데, 없다고 판단하는 오류
- 즉, 귀무가설이 틀렸는데 기각 못함
6. 검정통계량 (Test Statistic)
- 데이터로부터 계산한 값으로, 귀무가설이 맞는지 판단하기 위한 기준 값
- 종류: Z통계량, t통계량, 카이제곱통계량 등
(데이터 특성에 따라 사용)
7. 표본(sample) vs 모집단(population)
- 모집단: 전체 집단
- 표본: 전체 중 일부만 뽑아서 분석에 사용하는 데이터
- 가설검정은 보통 표본 데이터를 바탕으로 모집단에 대해 추론합니다.
💡 실제 예시로 쉽게 이해해보기
가정:
한 카페에서 새로운 음료를 출시했는데, 기존 음료보다 더 많이 팔리는지 알고 싶어요.
- H₀: 새 음료의 판매량은 기존 음료와 차이가 없다
- H₁: 새 음료의 판매량은 기존 음료보다 더 높다
- 표본 데이터를 수집해서 평균 판매량 비교
- p-value가 0.02 (유의수준 0.05보다 작음)
👉 결론: 새 음료가 더 잘 팔린다, 즉 H₀ 기각!
✍ 마무리 정리
귀무가설(H₀) | 차이가 없다는 기본 주장 |
대립가설(H₁) | 차이가 있다는 주장 |
유의수준(α) | 오류를 허용하는 기준 (보통 0.05) |
p-value | H₀가 참일 확률 |
1종 오류 | 효과 없는데 있다고 판단 |
2종 오류 | 효과 있는데 없다고 판단 |
검정통계량 | 판단 기준이 되는 수치 |
320x100
320x100
'빅데이터 관련 자료' 카테고리의 다른 글
양자컴퓨터, 대체 뭐길래? 초보자를 위한 친절한 안내서 (0) | 2025.04.10 |
---|---|
SAS 기초 통계 이해하기 (1) | 2025.04.10 |
데이터 라벨링의 모든 것 – 초보자 완전 정복! (2) | 2025.04.08 |
DB 스키마 분리: 개념과 실무 적용 (0) | 2025.04.08 |
(2025) 형태소 분석기 완벽 가이드: 개념부터 활용까지 (4) | 2025.04.07 |