파이썬 데이터 분석을 위한 수학 & 통계 - 5회차
Data Analyst

빅데이터 관련 자료/수학&x통계

파이썬 데이터 분석을 위한 수학 & 통계 - 5회차

carpe08 2021. 8. 23. 16:52
320x100
320x100

상관분석과 회귀분석

 

- 인과관계 예측  => 좋은 의사결정

- 상관분석과 회귀분석 : 변수간의 관련성 분석

- 선형관계: 두 변수간의 선형관계를 계량적으로 분석

- 회귀분석: 변수를 설명변수와 종속변수로 구분하여, 종속변수를 설명변수의 특정한 함수 형태로 설명할 수 있는지를 분석

 

 

1. 상관분석

두 확률변수 X와 Y의 상관관계(선형관계)의 부호와 강약을 나타내는 척도

 

상관계수의 특성

① ρXY의 범위는 -1≤ρXY≤1

② 두 변수가 서로 독립이면 두 변수 간에 상관관계가 없으며, ρXY =0

③ ρXY =0 이면 두 변수 간에 상관관계(선형관계)가 없다.

  그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다.

④ X와 Y가 정규분포를 따르는 경우, ρXY =0 이면 X와 Y는 독립

 

표본상관계수(sample correlation coefficient)

표본을 통하여 상관계수를 추정하는 통계량

표본상관계수의 특성

① rXY의 범위는 -1≤rXY≤1

② rXY 의 값이 +1 또는 -1에 가까울수록 산점도 상의 점들이 직선에 가깝게 위치

③ rXY 의 값이 +1 또는 -1인 경우에는 산점도 상의 모든 점이 직선상에 위치

2. 회귀분석

① 단순회귀분석(simple regression analysis)

하나의 독립변수로 하나의 종속변수를 설명하는 모형.

() 아버지의 키로 한 자녀의 키를 설명하는 경우에 해당

 

② 다중회귀분석(multiple regression analysis)

두 개 이상의 독립변수로 하나의 종속변수를 설명하는 모형.

() 아버지와 어머니의 키로 한 자녀의 키를 설명

 

다중공선성(multicollinearity)

- 독립변수들 간에 강한 상관관계가 있는 경우

- 추정된 회귀계수의 분산이 매우 커져서 정확한 모수추정 및 검정에 어려움이 있고, 추정된 회귀모형의 신빙성이 떨어짐

- 독립변수들 간의 상관계수를 사전에 조사할 필요가 있음

 

 

③ 곡선회귀분석(cuvilinear regression analysis)

독립변수와 종속변수의 관계를 2차 이상의 함수로 설명

() 2차 함수관계 à 독립변수=(x, x2) à 다중회귀분석 기법 사용 à 독립변수 간의 종속성에 주의.

 

다변량회귀분석(multivariate regression analysis)

두 개 이상의 종속변수를 사용하는 모형

() 아버지와 어머니의 키로 두 자녀의 키를 설명하는 경우

 

320x100
320x100