기초 통계 정리 4
Data Analyst

빅데이터 관련 자료/수학&x통계

기초 통계 정리 4

carpe08 2021. 10. 25. 23:05
320x100
320x100

t-test 란?

모집단의 표준편차가 알려지지않을 때 정규분포의 모집단에 모은 샘플의 평균값에 대한 가설검정 방법

 

만약에 그룹이 한개 더 있다면?

비교할 집단이 세 개 이상인 경우

t-test를 세 번하면 될 것같았으나 1종오류에 빠짐

 

따라서 우리는 새로운 방법을 배워야 한다.

One-Way ANOVA 이다.

 

왜 평균 분석이 아니고 분산분석일까?

 

독립변수

독립인 변수~ 무엇으로부터 독립일까요?

여기서 독립은 논리적 관계에서의 독립을 의미합니다.

의도적으로 변화시킬 수 있다고 하여 마음대로 해도 된다는 의미는 아닙니다.

 

종속변수

논리적 관계에서의 종속을 의미합니다.

결과가 되는 변수

통제변수

연구자나 조사자의 관심사에서 벗어난 독립변수

고객만족 높으면 ~ 재방문율 높다.

고객만족이 독립변수, 재방문율이 종속변수

재방문율에 영향을 미치는 변수가 오직 고객만족 한개일리가 없다.

따라서 재방문율에 영향을 미칠 만한 다른 중요한 변수를 같이 감안해야 함

다른 중요한 변수를 감안하고서도 고객만족이 중요한 역할을 하고 있다면, 고객만족은 정말 중요한 변수임

고객만족을 제외한 재방문율에 영향을 미치는 중요한 다른 변수 ~> 통제 변수

 

한개의 독립변수와 한개의 종속변수로 진행하면

통제 변수를 한개도 감안하지 않을 경우 Model Missspecification 발생

 

그렇다면 One-Way ANOVA를 본격적으로 시작하기 전에 알아야 할것은 무엇일까?

One-Way ANOVA 종속변수: 연속형 변수만 가능

One-Way ANOVA 독립변수: 이산형/범주형 변수만 가능

 

ex)

종속변수: 아이들의 폭력행동 점수

독립변수: 영상의 종류(폭력영화, 드라마, 공익광고)

 

종속변수: 신약을 먹은 후 완치될때까지 걸린 날짜

독립변수: 신약, 기존약, 플라시보

 

종속변수: 고객의 총 지불금액

독립변수: 은행계좌 자동이체, 신용카드, 전자수표, 종이수표

 

그런데 통계학 책을 읽다가 보면 이런게 등장합니다.

이게 뭘까요? 많은 분들이 여기서 보통 포기합니다.

어려워 보이게 써 놓은 것일 뿐입니다.

종속변수를 의미합니다. ANOVA에서 종속변수는 연속형변수가 되어야합니다.

j는 그룹의 개수, i는 그룹내의 ID입니다.

 

우변의 뮤 는 평균입니다. 평균이 왜 있을까요?

종속변수의 값이 100% 독립변수의 영향이라고 볼 수 없기때문입니다.

예를 들어 종속변수: 사과의 출하량, 독립변수: 비료를 준 그룹, 비료를 주지않은 그룹

비료를 주지않은 그룹의 사과 출하량이 상식적으로 0이되지 않는다. 

타우 제이는 독립변수입니다. j는 그룹을 의미합니다.

j는 그룹 i는 ID,

e가 의미하는 것은 오차입니다.

그룹간의 차이인 타우제이에 의해 설명되지 않는 오차 -> random한 오차, 이 오차는 무작위로 발생했으므로 큰 의미는 없다고 가정합니다.

물론 만약 이 오차가 무작위로 발생하지 않았다고 하면 뭔가 문제가 있는 것이다.

 

320x100
320x100