'분류 전체보기' 카테고리의 글 목록 (24 Page)
Data Analyst
300x250
300x250

분류 전체보기 368

encoding, 데이터의 인코딩 형식을 맞춰 불러오기

가끔 공공데이터와 같은 온라인에서 배포된 데이터를 불러오다보면 encoding 에러가 발생하여 데이터가 꺠지는 현상이 발생한다. 내가 불러오고자 하는 데이터의 encoding과 python encoding의 설정이 맞지않는 경우 발생하는데, 이러한 경우 read_csv의 encoding옵션을 이용하면 된다. 데이터가 깨져서 불러와지는 경우 pd.read_csv('파일경로',encoding='utf-8')혹은 pd.read_csv('파일경로',encoding='cp949')로 지정해주면 된다. #encoding을 cp949로 설정하여 데이터 불러오기 import pandas as pd train = pd.read_csv('data/train.csv',encoding='cp949')

skipfooter, 뒤에서 n개 행 제외하고 불러오기

데이터에서 뒤에서 n개의 행 제외하고 불러오기 데이터에서 아래쪽 n개의 행을 제외하고 불러오기 위해서는 read_csv의 skipfooter 옵션을 이용하면 된다. 예를 들어 밑에서 1번째부터 5번째를 제외하고 데이터를 불러오고 싶다면, pd.read_csv('파일경로',skipfooter=5)로 지정해주면 된다. import pandas as pd train_skipfooter = pd.read_csv('data/train.csv',skipfooter=5) test_skipfooter = pd.read_csv('data/test.csv',skipfooter=5)

기초 통계 정리 4

t-test 란? 모집단의 표준편차가 알려지지않을 때 정규분포의 모집단에 모은 샘플의 평균값에 대한 가설검정 방법 만약에 그룹이 한개 더 있다면? 비교할 집단이 세 개 이상인 경우 t-test를 세 번하면 될 것같았으나 1종오류에 빠짐 따라서 우리는 새로운 방법을 배워야 한다. One-Way ANOVA 이다. 왜 평균 분석이 아니고 분산분석일까? 독립변수 독립인 변수~ 무엇으로부터 독립일까요? 여기서 독립은 논리적 관계에서의 독립을 의미합니다. 의도적으로 변화시킬 수 있다고 하여 마음대로 해도 된다는 의미는 아닙니다. 종속변수 논리적 관계에서의 종속을 의미합니다. 결과가 되는 변수 통제변수 연구자나 조사자의 관심사에서 벗어난 독립변수 고객만족 높으면 ~ 재방문율 높다. 고객만족이 독립변수, 재방문율이 종..

index_col, 원하는 컬럼을 인덱스로 지정하여 불러오기

데이터에서 컬럼을 index로 지정하여 불러오기 데이터에서 컬럼을 인덱스로 지정하여 불러오기 위해서는 read_csv의 index_col 옵션을 사용하면 된다. 예를 들어, 데이터에 python 컬럼이 있다고 했을 때, pd.read_csv('파일경로',index_col='python')으로 지정해주면 된다. # index 컬럼을 인덱스로 지정해서 불러오기 train_index = pd.read_csv('data/train.csv',index_col='index') test_index = pd.read_csv('data/test,csv',index_col='index')

header, 원하는 행을 컬럼으로 지정하여 불러오기

데이터의 n번째을 컬럼으로 지정하여 불러오기 위해서는 read_csv 의 header 옵션을 이용하면 됩니다. 예를 들어 2번째 행을 컬럼으로 지정하여 데이터를 불러오고 싶다면 pd.read_csv('파일경로',header=1)로 지정해주면 됩니다. # 데이터의 두번째 행을 컬럼으로 지정하여 불러오기 import pandas as pd train = pd.read_csv('data/train.csv',header=1) test = pd.read_csv('data/test.csv',header=1)

nrows, n번째 행까지 불러오기

파이썬에서는 데이터 파일을 불러오기 위해서는 pandas 라이브러리의 read_csv 함수를 이용하면 손쉽게 데이터를 불러올 수 있다. read_csv 함수는 단순히 파일을 가져오는 것뿐만 아니라 다양한 옵션을 지정해 파일을 불러 올 수 있다. 예를 들어 n번째 행까지 데이터를 불러온다든지 컬럼으로 사용할 행을 지정한다든지 등의 옵션이 있다. 데이터의 n번째 행까지 불러오기 데이터를 n번째 행까지만 불러오기 위해서는 read_csv의 nrow 옵션을 이용하면 된다. 예를 들어 5번째 행까지 데이터를 불러오고 싶다면, pd.read_csv('파일경로',nrows=5)로 지정해주면 된다. # 데이터를 3번째 행까지만 불러오기(nrow=3) import pandas as pd train_3 = pd.read_..

기초 통계 정리 3

t-test - 모집단의 표준편차가 알려지지 않을 때 정규분포의 모집단에서 표본의 평균값에 대한 가설검정 방법 - 무슨 소리인지 한개도 모르겠음 t-test 목적 - 너무 단순하지만, 두개의 집단이 같은지 다른지 비교하기 위해 사용 집단? => 표본, 모집단 표본과 모집단은 어떻게 다를까요? 두 집단의 평균값이 통계적으로 같은지 다른지를 확인하여 두 집단이 같은지 다른지 비교할 수 있다. 키 차이 1.4cm t-test를 위한 통계적 질문 A대학 남학생 평균키와 B대학 남학생 평균키가 우연히 같은 확률은 얼마나 될까? = A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까? 그렇다면 과연 1.4cm의 차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까? 1...

기초 통계 정리 2

상관관계 - 한 변수와 다른 변수가 공변하는 함수관계 - 상관관계를 나타내는 상관계수는 힘. 방향을 의미합니다. 상관계수 -1부터 0을 거쳐 1사이에만 존재 크기는 힘을 의미 힘이 세다는 것은 1에 가깝다. scatterplot으로 데이터들이 가깝게 모여있을수록 힘이 세다. 점의 추세선 각도와는 상관없이 얼마나 모여있는지에 따라 상관계수값이 딸라진다. 상관관게는 직선관계만을 측정할수있다. 곡선은 측정이 불가능합니다. 이럴때는 상관관계를 논하는 것은 의미없다. 상관관계는 인과관계가 아니다 인과관계는 원인과 결과의 관계를 가지는 변수의 관계성을 의미 고객은 만족하기 때문에 재방문하려고 한다. 수입이 있기 때문에 지출이 있다.

정형 데이터 분석 파이프라인 - (2)

지난 시간에는 정형 데이터 분석 파이프라인 중 EDA와 데이터 전처리에 대해 알아 보았습니다. 이번 시간에는 머신러닝 모델링과 모델 튜닝에 대해 알아보도록 하겠습니다. 머신러닝 모델링 머신러닝 모델링 과정은 모델을 정의하고 학습데이터로 모델을 학습(훈련)시키는 과정입니다. 트리 기반의 Decision Tree, 여러 모델을 결합한 앙상블 모델이 Random Forest, Xgboost, LightGBM, Voting Classifier 등을 알아보았습니다. 또한, 모델을 검증하는 방법으로 K-fold와 K-fold의 문제점인 target 데이터의 비율을 일정하게 유지하지 못하는 것을 일정하게 유지하며, 교차 검증을 진행하는 Strtified K-fold에 대해 배웠습니다. 모델 Decision Tree ..

300x250
300x250