'다중공선성' 태그의 글 목록
잡학다식의 지식공방
300x250

다중공선성 5

다중공선성과 정규화: 언제, 왜, 어떻게 해결할까?

머신러닝이나 통계 모델링을 할 때, 다중공선성(Multicollinearity) 문제를 자주 마주하게 됩니다. 특히 회귀 분석에서 다중공선성이 발생하면 모델이 불안정해지고 해석이 어려워질 수 있습니다. 많은 사람들이 이를 해결하기 위해 정규화(Normalization) 를 시도하지만, 과연 정규화가 다중공선성을 해결할 수 있을까요? 이번 글에서는 다중공선성과 정규화의 관계를 살펴보고, 더 효과적인 해결 방법을 알아보겠습니다.1. 다중공선성이란?다중공선성이란 독립 변수들 간의 강한 상관관계가 존재하는 현상을 의미합니다. 쉽게 말해, 서로 유사한 정보를 가진 변수들이 많아질 경우, 회귀 모델이 이를 제대로 구분하지 못하고 계수(β)가 불안정해지는 문제가 발생합니다.🔍 다중공선성이 문제를 일으키는 이유회귀 ..

Lv4 | 전처리 | 다중공선성 해결 | 변수 정규화

다중공선성 해결 다중공선성을 일으키는 변수들을 어떻게 다뤄줘야할지에 대해 알아보도록 하겠다. 다중공선성을 해결하는 방법은 크게 3가지가 있다. 1. 변수 정규화 2. 변수 제거 3. PCA(주성분 분석) 이번 시간에는 정규호를 적용하기 전 분산 팽창 요인(VIF)를 확인하고 정규화를 적용한 후에 분산 팽창 요인을 확인해 서로 비교하도록 한다. #train 데이터의 VIF 계수 출력 vif =pd.DataFrame() vif['VIF Factor"] = [variance_inflation_factor(train_values,i) for i in range(train.shape[1])] vif['features'] = train.columns vif # MinMaxScaler를 통해 변환 scaler = M..

Lv4 | EDA | 다중공선성 VIF(분산 팽창 요인)

이번에는 변수의 다중공선성을 확인하는 방법 중 하나인 VIF(variance Inflation Factors, 분산팽창요인)에 대해 알아보자 VIF는 변수간의 다중공선성을 진단하는 수치이며, 범위 1부터 무한대이다. 통계학에서는 VIF값이 10이상이면 해당 변수가 다중공선성이 있는 것으로 판단한다 VIF를 구하는 수식은 VIFk = 1 / (1 - Rj2) 이다. 여기서 VIFk 는 k번째 변수의 VIF 값을 의미하고, Rj2 는 회귀분석에서 사용하는 결정계수이다. # 결과값을 저장할 VIF라는 이름의 리스트 생성 vif = [] # values atribution(속성) 이용해 train 데이터의 값만 추출 train_val = train.values # variance_inflation_factor ..

Lv4 | EDA | seaborn |다중공선성 Scatter plot

다중공선성 다중공선성은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다. 만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣는 것이므로 모델이 결과값을 추론하는데 방해가 될 수 있다. 다중공선성 확인 다중공선성을 확인 하는 방법은 크게 3가지가 있다. 1. scatter plot을 통한 확인 2. hearmap 그래프를 통한 확인 3. VIF을 통한 확인 Scatter plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있다. x 데이터가 증가함에 따라 y데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석할 수 있다. #scatter plot을 그릴 변수 지정 x_data = train['residu..

파이썬 데이터 분석을 위한 수학 & 통계 - 5회차

상관분석과 회귀분석 - 인과관계 예측 => 좋은 의사결정 - 상관분석과 회귀분석 : 변수간의 관련성 분석 - 선형관계: 두 변수간의 선형관계를 계량적으로 분석 - 회귀분석: 변수를 설명변수와 종속변수로 구분하여, 종속변수를 설명변수의 특정한 함수 형태로 설명할 수 있는지를 분석 1. 상관분석 두 확률변수 X와 Y의 상관관계(선형관계)의 부호와 강약을 나타내는 척도 상관계수의 특성 ① ρXY의 범위는 -1≤ρXY≤1 ② 두 변수가 서로 독립이면 두 변수 간에 상관관계가 없으며, ρXY =0 ③ ρXY =0 이면 두 변수 간에 상관관계(선형관계)가 없다. 그러나 비선형관계는 있을 수 있기 때문에 두 변수가 서로 독립이라는 보장은 없다. ④ X와 Y가 정규분포를 따르는 경우, ρXY =0 이면 X와 Y는 독립..

1
300x250
300x250