통계란 분산의 마법입니다.
평균: 자료의 중심값으로서 자료의 특성을 대표하는 값, 모든 자료로부터 영향을 받는다. 아웃라이어에 취약하다.
분산: 내가 가진 자료가 평균값을 중심으로 퍼져 있는 평균적인 거리
why 평균과 분산인가?:
계산이 쉽다.
가우스에 따르면 데이터의 불규칙성이 정규분포를 따르고 있으면 최소제곱법이 가장 좋은 추정방법이고, 그 결과 평균값이 가장 좋은 추정값이 됨, 체비체프에 따르면, 데이터의 불규칙성이 어떠하든 평균값 +-2xSD 범위안에는 반드시 전체의 4분의 3이상의 데이터가 존재하는 것이 증명됨
p값 왜 유의할까?
p값이 0.05보다 작으니 유의하다. => p값은 무엇이고, 0.05는 뭐며, 유의하다는건 무슨 뜻일까?
p값은 무엇일까? percent? possibility?
p-value: probability value, 확률값
어떤 사건이 우연히 발생할 확률: p값이다.
그런데 왜 p값은 0.05보다 작아야할까요? 왜 기준이 0.05일까요?
p값은 확률값이므로 p값이 가질 수 있는 값이 0부터 1까지 입니다.
0.05라면 %로 바꿀 경우 5%입니다.
p값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미, 가능성이 없다는 뜻이므로 뭔가 이유가 있다는 뜻으로 유의하다라는 것이다.
통계적 가설
Ho: Null Hypothesis의 약자, 귀무가설, 무로 돌아가는 가설, 아무영향도 없고 아무일도 없다라는 것을 가정하는 가설
H1, Ha: Alternative Hypothesis의 약자, 대립가설, 첫번째의 귀무가설을 대체하는 대립하는 가설
변수란 무엇인가?
변하는 숫자
명목변수/척도
각 변수 간 순위가 없다.
순위변수/척도
각 변수 간 순위가 있다.
구간변수/척도
측정된 범주 사이에 등간성이 있다.
0 의 의미가 없다.
온도
비율변수/척도
측정된 범주 사이에 등간성이 있다.
절대 0의 의미가 있다.
키/몸무게/나이/시간
'빅데이터 관련 자료 > 수학&x통계' 카테고리의 다른 글
기초 통계 정리 3 (0) | 2021.10.16 |
---|---|
기초 통계 정리 2 (0) | 2021.10.14 |
Lv3 | 튜닝 | 그리드, 랜덤 서치 vs Bayesian Optimization (0) | 2021.08.24 |
파이썬 데이터 분석을 위한 수학 & 통계 - 5회차 (0) | 2021.08.23 |
Lv3 | 모델링 | 교차 검증 정의 K-Fold - 2 : 교차검증 (0) | 2021.08.22 |