encoding, 데이터의 인코딩 형식을 맞춰 불러오기
Data Analyst

빅데이터 관련 자료/Dacon

encoding, 데이터의 인코딩 형식을 맞춰 불러오기

carpe08 2021. 10. 28. 23:34
320x100
320x100

가끔 공공데이터와 같은 온라인에서 배포된 데이터를 불러오다보면 encoding 에러가 발생하여 데이터가 꺠지는 현상이 발생한다.

내가 불러오고자 하는 데이터의 encoding과 python encoding의 설정이 맞지않는 경우 발생하는데, 이러한 경우 read_csv의 encoding옵션을 이용하면 된다. 데이터가 깨져서 불러와지는 경우 pd.read_csv('파일경로',encoding='utf-8')혹은 pd.read_csv('파일경로',encoding='cp949')로 지정해주면 된다.

 

#encoding을 cp949로 설정하여 데이터 불러오기

import pandas as pd

train = pd.read_csv('data/train.csv',encoding='cp949')
320x100
320x100