상관분석과 회귀분석
- 인과관계 예측 => 좋은 의사결정
- 상관분석과 회귀분석 : 변수간의 관련성 분석
- 선형관계: 두 변수간의 선형관계를 계량적으로 분석
- 회귀분석: 변수를 설명변수와 종속변수로 구분하여, 종속변수를 설명변수의 특정한 함수 형태로 설명할 수 있는지를 분석
1. 상관분석
두 확률변수 X와 Y의 상관관계(선형관계)의 부호와 강약을 나타내는 척도
상관계수의 특성
① ρXY의 범위는 -1≤ρXY≤1
② 두 변수가 서로 독립이면 두 변수 간에 상관관계가 없으며, ρXY =0
③ ρXY =0 이면 두 변수 간에 상관관계(선형관계)가 없다.
그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다.
④ X와 Y가 정규분포를 따르는 경우, ρXY =0 이면 X와 Y는 독립
표본상관계수(sample correlation coefficient)
표본을 통하여 상관계수를 추정하는 통계량
표본상관계수의 특성
① rXY의 범위는 -1≤rXY≤1
② rXY 의 값이 +1 또는 -1에 가까울수록 산점도 상의 점들이 직선에 가깝게 위치
③ rXY 의 값이 +1 또는 -1인 경우에는 산점도 상의 모든 점이 직선상에 위치
2. 회귀분석
① 단순회귀분석(simple regression analysis)
하나의 독립변수로 하나의 종속변수를 설명하는 모형.
(예) 아버지의 키로 한 자녀의 키를 설명하는 경우에 해당
② 다중회귀분석(multiple regression analysis)
두 개 이상의 독립변수로 하나의 종속변수를 설명하는 모형.
(예) 아버지와 어머니의 키로 한 자녀의 키를 설명
다중공선성(multicollinearity)
- 독립변수들 간에 강한 상관관계가 있는 경우
- 추정된 회귀계수의 분산이 매우 커져서 정확한 모수추정 및 검정에 어려움이 있고, 추정된 회귀모형의 신빙성이 떨어짐
- 독립변수들 간의 상관계수를 사전에 조사할 필요가 있음
③ 곡선회귀분석(cuvilinear regression analysis)
독립변수와 종속변수의 관계를 2차 이상의 함수로 설명
(예) 2차 함수관계 à 독립변수=(x, x2) à 다중회귀분석 기법 사용 à 독립변수 간의 종속성에 주의.
④ 다변량회귀분석(multivariate regression analysis)
두 개 이상의 종속변수를 사용하는 모형
(예) 아버지와 어머니의 키로 두 자녀의 키를 설명하는 경우
'빅데이터 관련 자료 > 수학&x통계' 카테고리의 다른 글
기초 통계 정리 1 (0) | 2021.10.12 |
---|---|
Lv3 | 튜닝 | 그리드, 랜덤 서치 vs Bayesian Optimization (0) | 2021.08.24 |
Lv3 | 모델링 | 교차 검증 정의 K-Fold - 2 : 교차검증 (0) | 2021.08.22 |
파이썬 데이터 분석을 위한 수학 & 통계 - 4회차 (0) | 2021.08.18 |
파이썬 데이터 분석을 위한 수학 & 통계 - 3회차 - 3 (0) | 2021.08.17 |