기초 통계 정리 3
Data Analyst

빅데이터 관련 자료/수학&x통계

기초 통계 정리 3

carpe08 2021. 10. 16. 20:27
320x100
320x100

t-test

- 모집단의 표준편차가 알려지지 않을 때 정규분포의 모집단에서 표본의 평균값에 대한 가설검정 방법

- 무슨 소리인지 한개도 모르겠음

 

t-test 목적

- 너무 단순하지만, 두개의 집단이 같은지 다른지 비교하기 위해 사용

 

집단? => 표본, 모집단

 

표본과 모집단은 어떻게 다를까요?

 

두 집단의 평균값이 통계적으로 같은지 다른지를 확인하여 두 집단이 같은지 다른지 비교할 수 있다.

 

키 차이 1.4cm

 

t-test를 위한 통계적 질문

A대학 남학생 평균키와 B대학 남학생 평균키가 우연히 같은 확률은 얼마나 될까?

=

A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까?

 

그렇다면 과연 1.4cm의 차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까?

1.4cm의 차이는 과연 큰 것인가 작은 것인가?

 

우리는 1.4cm가 얼마나 큰지 혹은 작은지 알 수 없습니다.

우리는 이제 이 1.4.cm가 얼마나 큰지 혹은 작은지 결정할 나름의 비교 대상이 필요합니다.

누구를 가지고 와서 비교해야 할까요?

 

바로 표준편차(분산)!!!

 

이 1.4cm의 차이도 결국 두 집단의 평균적인 거리입니다.

왜냐하면, 두 집단의 수많은 데이터의 평균의 차이가 1.4cm라는 것은 두 집단의 수많은 데이터들 사이의 평균적인 거리가 1.4cm라는 의미이기 때문입니다. 

 

만약 이 1.4cm가 표준편차 xxcm 보다 현저히 작다면, 우리는 이 1.4cm의 차이에 큰 의미를 둘 수는 없다.

그러나 1.4cm가 표준편차xxcm보다 현저히 크다면, 우리는 이 1.4cm의 차이에 큰 의미를 둘 수 있다.

 

물론 여기서 어떻게 두 집단의 표준편차를 구할지 혹은 현저히 크다/작다를 어떻게 결정할지는 이따가 알아보겠다.

 

결론적으로 두집단의 평균값의 차이가 표준편차보다 작으면, 우연히 발생

크다면, 우연히 발생하지 않았다고 결론을 내릴 수 있다.

 

t-test를 바로 시작하지 못하는 이유

 

1. 정규분포

 

정규분포

t-test를 이해하기 위해서 정규분포로 몸을 풀고 가야합니다.

 

1. 종모양

2. 평균을 중심으로 좌우 대칭

3. 영원히 0에 닿지 않음

4. 평균과 표준편차만으로 규정됨

4. 정규분포의 아래의 면적은 확률을 의미함, 모든 면적의 합은 1

 

표준정규분포

평균이 0이고 표준편차가 1인 정규분포

왜? 무한대 가지의 정규분포 곡선을 적분하는 번거로움을 덜기 위해

z-score을 가지고 하는 테스트를 z-test라고 합니다.

z값은 단위로부터 자유롭다.

 

2. 양측검정/단측검정

양측은 0보다 크거나 작은 두가지를 모두 포함

단측은 0보다 크다 0보다 작다

0을 기준으로 양측이든 단측이든 95%안에 들어오면 두 평균값의 차는 우연히 발생한 것이므로 두 집단의 통계적으로는 같은 것이다.

 

진짜 t-test하기

z-test를 하기위해 필요한 것은 z-값과 표준정규분포

따라서, 우리는 이제 t값과 t분포가 필요합니다.

 

우리의 목적은 두 집단의 평균값이 같은지 다른지 알고 싶다.

n이 커질수록 정규분포를 따라간다.

두집단의 평균값의 차이가 의미없는 편차인 표준편차만도 못하다면, 이 차이는 우연히 발생했다고 본다.

n이 커지면 t값은 커지고 표준 정규분포에 근사

자유도는 n-1로 계산되므로 자유도가 커졌다는 의미는 우리가 t-분포에 묶여 있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미

만약 표준편차가 7.05cm이고 표본의 크기가 101명이라면, t-value=1.996

t- table을 통해 two-tails => critival-value: 1.984

  

1.984 < 1.996 => 1.4cm가 우연히 발생할 확률은 5%에 들어간다. 이 차이는 통계적으로 유의하다.

이는 우연히 발생했다고 보기 어려워 두 대학의 학생의 키가 다른 뭔가 원인이 있다고 볼 수 있다.

유의하다가 끝이 아님!!

 

t-test의 종류

Two-sample t-test

One-sample t-test

Paired t-test

 

공식을 외워야할까요?

아니요

외우고 정답찾기에 몰두하기 보다 일단 먼저 이해를 하고 계산은 컴퓨터에 맡깁시다.

 

컴퓨터 실습

대표적인 일반 통계 프로그램 sas, spss, stata, R

무엇을 선택해도 관계는 없다.

 

320x100
320x100