기초 통계 정리 1
Data Analyst

빅데이터 관련 자료/수학&x통계

기초 통계 정리 1

carpe08 2021. 10. 12. 18:34
320x100
320x100

통계란 분산의 마법입니다.

 

평균: 자료의 중심값으로서 자료의 특성을 대표하는 값, 모든 자료로부터 영향을 받는다. 아웃라이어에 취약하다.

분산: 내가 가진 자료가 평균값을 중심으로 퍼져 있는 평균적인 거리

 

why 평균과 분산인가?:

계산이 쉽다.

가우스에 따르면 데이터의 불규칙성이 정규분포를 따르고 있으면 최소제곱법이 가장 좋은 추정방법이고, 그 결과 평균값이 가장 좋은 추정값이 됨, 체비체프에 따르면, 데이터의 불규칙성이 어떠하든 평균값 +-2xSD 범위안에는 반드시 전체의 4분의 3이상의 데이터가 존재하는 것이 증명됨

 

p값 왜 유의할까? 

p값이 0.05보다 작으니 유의하다. => p값은 무엇이고, 0.05는 뭐며, 유의하다는건 무슨 뜻일까?

 

p값은 무엇일까? percent? possibility?

p-value: probability value, 확률값

 

어떤 사건이 우연히 발생할 확률: p값이다.

 

그런데 왜 p값은 0.05보다 작아야할까요? 왜 기준이 0.05일까요?

p값은 확률값이므로 p값이 가질 수 있는 값이 0부터 1까지 입니다.

0.05라면 %로 바꿀 경우 5%입니다.

p값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미, 가능성이 없다는 뜻이므로 뭔가 이유가 있다는 뜻으로 유의하다라는 것이다.

 

통계적 가설

Ho: Null Hypothesis의 약자, 귀무가설, 무로 돌아가는 가설, 아무영향도 없고 아무일도 없다라는 것을 가정하는 가설

H1, Ha: Alternative Hypothesis의 약자, 대립가설, 첫번째의 귀무가설을 대체하는 대립하는 가설

 

변수란 무엇인가?

변하는 숫자

 

명목변수/척도

각 변수 간 순위가 없다.

 

순위변수/척도

각 변수 간 순위가 있다.

 

구간변수/척도

측정된 범주 사이에 등간성이 있다.

0 의 의미가 없다.

온도

 

비율변수/척도

측정된 범주 사이에 등간성이 있다.

절대 0의 의미가 있다.

키/몸무게/나이/시간

 

 

320x100
320x100