'분류 전체보기' 카테고리의 글 목록 (31 Page)
Data Analyst
300x250
300x250

분류 전체보기 365

파이썬 데이터 분석을 위한 수학 & 통계 - 4회차

두 모집단에 대한 추론 1. 모평균 차이에 대한 추론 (모분산 기지) 모평균 차이에 대한 100(1-α)% 신뢰구간(confidence interval) 2. 모평균 차이에 대한 추론 (모분산을 모르지만 같은 경우) 모평균 차이에 대한 신뢰구간 3. 모평균 차이에 대한 추론 (모분산을 모르며 다른 경우) 모평균 차이에 대한 신뢰구간 4. 모비율 차이에 대한 추론 (표본이 큰 경우) 모비율 차이의 신뢰구간 5. 모분산 비율에 대한 추론 모분산 비율의 신뢰구간 분산분석 - 인과관계 예측이 좋은 의사결정 - 분산분석 : 어떤 요인이 반응치에 영향을 주는지 분석 - 분산분석의 용도 : 분산분석을 통해 의미 있는 요인들을 선별하고, 바람직한 반응치를 얻을 수 있는 수준 범위를 사전에 찾아 놓으면 추후의 분석에 많..

Lv3 | 전처리 | 수치형 데이터 정규화 MinMaxScaler()

의사결정 나무나, 랜덤포레스트 같은 '트리 기반의 모델' 들은 대소 비교를 통해서 구분하기 때문에, 숫자의 단위에 크게 영향을 받지 않습니다. 하지만, Logistic Regression, Lasso 등과 같은 '평활 함수 모델'들은 숫자의 크기와 단위에 영향을 많이 받습니다. 따라서, 수치형 데이터 정규화를 통해 모든 모델에 잘 어울리는 데이터를 만들어주고자 한다. 다양한 수치형 데이터 정규화 방법 중에서, 'Min-Max Scailing' 기법은 간단하다. 가장 작은 값을 0으로, 가장 큰 값은 1로 만들어주는 방법이다. 그리고 그 사이의 값들은 비율에 따라서 0~1 사이에 분포하게 됩니다. # describe를 통해 "fixed acidity"의 데이터의 분포가 어떻게 생겼는지 짐작해 보세요 tra..

파이썬 데이터 분석을 위한 수학 & 통계 - 3회차 - 3

범주형 데이터 분석 1. 적합도 검정(goodness of fit test) - 본격적인 검정을 들어가기 전에 한다. - 관측이나 실험을 통해 얻어진 표본 데이터의 분포가 특정 형태의 분포와 일치하는지 알아보고자 하는 검정 방법 - 범주형 데이터의 관측치와 기댓값과의 차이를 근거로 검정 - 범주의 총 개수 à k - 범주 i의 기대도수(expected frequency) à E_i - 범주 i의 관측도수(observed frequency) à O_i 귀무가설 H0 : “관측 데이터는 특정 분포를 따른다” 귀무가설 H0 : 범주 i의 발생확률 pi 설정 k = 범주의 개수 m = 귀무가설에서 설정한 분포에서 추정한 모수의 개수 실습코드 # 카이제곱 검정 (적합도) print(spt.chisquare([16..

파이썬 데이터 분석을 위한 수학 & 통계 - 3회차 - 2

표본의 분포 1. 통계량과 추정량 확률표본(random sample) 독립적이며 동일한 분포를 따르는 (iid: independent and identically distributed) 확률변수들의 집합 통계량(statistic) 미지의(unknown) 모수를 포함하지 않는 확률표본의 함수 추정량(estimator) 미지의 모수를 추정하기 위한 통계량 불편성(unbiasedness) 추정량의 기댓값이 추정하고자 하는 모수와 같아지는 특성으로서, 좋은 추정량이 되기 위한 첫 번째 요건 정규 모집단에서 일정한 개수의 확률표본으로 만들 수 있는 모평균에 대한 불편추정량 중 표본평균의 분산이 최소(UMVUE) 2. 중심극한정리 표본평균의 분포가 정규분포로 근사 단일 모집단에 대한 추론 구간추정 신뢰구간(conf..

파이썬 데이터 분석을 위한 수학 & 통계 - 3회차 - 1

이산형 확률분포 1. 이산균일분포 - n 개의 결과값이 균일한 확률로 발생하는 확률분포 2. 이항분포 - 성공확률이 일정한 n회의 시행에서 나오는 성공 횟수의 확률분포 PDF 기댓값 분산 실습코드 import scipy.stats as spt import numpy as np import pandas as pd import matplotlib.pyplot as plt # Binomial distribution 이항분포 fig, ax = plt.subplots(1, 1) n=70; p=0.4; m,var,skw,kur=spt.binom.stats(n,p,moments='mvsk') #n 횟수, #moment print(m,var,skw,kur) x = np.arange(spt.binom.ppf(0.01, ..

Lv3 | 전처리 | 이상치 탐지

데이터 중에는 이상치가 존재한다. 이상치는 말 그대로 이상이 있는 데이터다. 일반적인 데이터 패턴과 매우 다른 패턴을 갖는 데이터과 된다. 이러한 이상치 데이터는 모델의 성능을 크게 떨어트립니다. 오늘은 이상치를 탐지하는법을 배우겠다. 대표적인 방법은 IQR 로, 사분위 값의 편차를 이용한다. 이를 boxplot 그래프로 볼 수 있다. import seaborn as sns sns.boxplot(data='데이터셋')

300x250
300x250