가설검정에 사용되는 필수 용어 정리! (초보자용)
잡학다식의 지식공방

빅데이터 관련 자료

가설검정에 사용되는 필수 용어 정리! (초보자용)

carpe08 2025. 4. 9. 08:37
320x100

데이터 분석이나 통계 공부를 하다 보면 반드시 마주하게 되는 개념 중 하나가 가설검정(Hypothesis Testing)입니다.
하지만 H0니 p-value니 어려운 용어들 때문에 처음부터 벽을 느끼기 쉬운데요.
오늘은 가설검정에 사용되는 핵심 용어들을 정리해서, 여러분이 통계를 좀 더 자신 있게 다룰 수 있도록 도와드릴게요! 🙌


1. 가설(Hypothesis)

가설은 말 그대로 어떤 주장이나 예상이에요. 가설검정에서는 두 가지 가설을 세우고, 데이터로 검증합니다.

  • 귀무가설 (H₀, Null Hypothesis)
    👉 "차이가 없다", "효과가 없다"는 기본 전제
    예: "이 약은 효과가 없다."
  • 대립가설 (H₁ 또는 Hₐ, Alternative Hypothesis)
    👉 "차이가 있다", "효과가 있다"는 주장
    예: "이 약은 효과가 있다."

📌 검정의 목적은 H₀를 기각할 수 있는지를 판단하는 것입니다.


2. 유의수준 (Significance Level, α)

  • 일반적으로 **0.05 (5%)**로 설정
  • 이는 **오탐(false positive)**을 허용하는 기준입니다.
    즉, 실제로는 효과가 없는데 효과가 있다고 잘못 판단할 확률이 5% 이하가 되도록 하겠다는 의미입니다.

3. p-value (유의확률)

  • 실제로 얻은 데이터에서 귀무가설이 참일 확률을 계산한 값
  • p-value가 유의수준(α)보다 작으면 → 귀무가설 기각
  • p-value가 유의수준보다 크면 → 귀무가설 채택(기각 못함)

✅ 예시:
p-value = 0.03, α = 0.05라면
👉 p < α이므로 → 통계적으로 유의하다 → 귀무가설 기각!


4. 1종 오류(Type I Error)

  • 실제로는 효과가 없는데, 있다고 판단하는 오류
  • 즉, 귀무가설이 맞는데 기각해버림
  • 이 오류가 발생할 확률 = 유의수준 α

5. 2종 오류(Type II Error)

  • 실제로는 효과가 있는데, 없다고 판단하는 오류
  • 즉, 귀무가설이 틀렸는데 기각 못함

6. 검정통계량 (Test Statistic)

  • 데이터로부터 계산한 값으로, 귀무가설이 맞는지 판단하기 위한 기준 값
  • 종류: Z통계량, t통계량, 카이제곱통계량 등
    (데이터 특성에 따라 사용)

7. 표본(sample) vs 모집단(population)

  • 모집단: 전체 집단
  • 표본: 전체 중 일부만 뽑아서 분석에 사용하는 데이터
  • 가설검정은 보통 표본 데이터를 바탕으로 모집단에 대해 추론합니다.

💡 실제 예시로 쉽게 이해해보기

가정:

한 카페에서 새로운 음료를 출시했는데, 기존 음료보다 더 많이 팔리는지 알고 싶어요.

  • H₀: 새 음료의 판매량은 기존 음료와 차이가 없다
  • H₁: 새 음료의 판매량은 기존 음료보다 더 높다
  1. 표본 데이터를 수집해서 평균 판매량 비교
  2. p-value가 0.02 (유의수준 0.05보다 작음)
    👉 결론: 새 음료가 더 잘 팔린다, 즉 H₀ 기각!

✍ 마무리 정리

귀무가설(H₀) 차이가 없다는 기본 주장
대립가설(H₁) 차이가 있다는 주장
유의수준(α) 오류를 허용하는 기준 (보통 0.05)
p-value H₀가 참일 확률
1종 오류 효과 없는데 있다고 판단
2종 오류 효과 있는데 없다고 판단
검정통계량 판단 기준이 되는 수치
320x100
320x100