'빅데이터 관련 자료/Dacon' 카테고리의 글 목록 (4 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료/Dacon 104

unique value 값 개수 출력(value_counts()

데이터 프레임에서 각 column별 고유값의 개수를 구하기 위해서는 value_counts() 함수를 이용하면 됩니다. value_counts()는 어떤 컬럼/Seires의 uniqu 한 value 들을 count 해주는 함수 입니다. value_count() 함수를 이용하면 출력값 으로 인덱스가 unique value로 값은 count가 들어가 있는 Series가 출력 됩니다. 예를 들어 데이터프레임(df) 에서 category 라는 컬럼이 있다면 df['category'].value_counts() 로 category 컬럼의 고유값의 개수를 출력 할 수 있습니다. 보통 value_counts() 함수는 데이터에서 label 값들의 비율을 확인 할 때 많이 사용합니다. import pandas as p..

데이터 결측치 확인하기 - (isnull().sum())

파이썬에서 데이터의 결측치를 확인하는 방법은 여러가지가 있지만 그중 판다스의 isnull 함수를 이용하면 보다 쉽게 결측치를 확인 하실 수 있습니다. isnull() 함수는 결측값을 True로, 결측값이 아닌 값을 False로 반환합니다. 그런데 이 때 각각의 값에 대하여 결측값 여부를 검사하기 때문에 sum 함수를 덧붙여 사용하면 각 컬럼마다 결측치가 몇개 있는지 확인할 수 있습니다. True는 1에 대응하고, False는 0에 대응하기 때문에 sum 함수를 사용할 경우 결과값처럼 컬럼 별 결측치 개수의 총합이 출력 됩니다. # train 데이터 결측치 갯수 출력 train.isnull().sum() # test 데이터 결측치 갯수 출력 test.isnull().sum()

데이터 확인하기 - (head(),tail())

pandas에서 데이터를 확인하는 방법을 여러가지가 있습니다. 그 중 가장 쉽고 단순하게 데이터를 확인할 수 있는 메서드는 head()와 tail() 메서드를 활용하는 방법이다. head(n=5) DataFrame의 처음 n줄의 데이터를 출력 n의 기본값은 5이면 아무 입력이 없을 경우(ex.head()) 5줄을 기본으로 출력합니다. tail(n=5) DataFrame 내의 마지막 n줄의 데이터를 출력 n의 기본값은 head()와 동일하게 5이며, 아무 입력이 없을 경우(ex.tail()) 하위 5줄을 기본으로 출력합니다. #train 데이터의 상위 5개 행 출력 train.head() #train 데이터의 상위 7개 행 출력 train.head(7) #train 데이터의 하위 3개 행 출력 train...

index=False, 데이터를 저장할 때 index 제외하고 저장

파이썬에서 데이터 파일을 내보내기 위해서는 pandas 라이브러리의 to_csv 함수를 이용하면 손쉽게 데이터를 내보낼수있다. DataFrame.to_csv('path')로 저장할 수 있고, path에 저장하고 싶은 경로와 파일명을 함께 넣어주면 된다. 하지만, to_csv 메서도 안에 아무런 옵션도 지정해주지 않는다면 다음과 같이 인덱스도 데이터에 포함되어 저장되기 떄문에 index는 포함하지않고 저장하는 옵션을 지정해주어야 한다. index를 포함시키지 않고 데이터를 저장하기 위해서는 to_csv(inedx=False)로 지정해서 데이터를 저장해주면 된다. #index를 포함하지 않고 데이터 저장하기 import pandas as pd train.to_csv('data/train.csv',index=..

encoding, 데이터의 인코딩 형식을 맞춰 불러오기

가끔 공공데이터와 같은 온라인에서 배포된 데이터를 불러오다보면 encoding 에러가 발생하여 데이터가 꺠지는 현상이 발생한다. 내가 불러오고자 하는 데이터의 encoding과 python encoding의 설정이 맞지않는 경우 발생하는데, 이러한 경우 read_csv의 encoding옵션을 이용하면 된다. 데이터가 깨져서 불러와지는 경우 pd.read_csv('파일경로',encoding='utf-8')혹은 pd.read_csv('파일경로',encoding='cp949')로 지정해주면 된다. #encoding을 cp949로 설정하여 데이터 불러오기 import pandas as pd train = pd.read_csv('data/train.csv',encoding='cp949')

skipfooter, 뒤에서 n개 행 제외하고 불러오기

데이터에서 뒤에서 n개의 행 제외하고 불러오기 데이터에서 아래쪽 n개의 행을 제외하고 불러오기 위해서는 read_csv의 skipfooter 옵션을 이용하면 된다. 예를 들어 밑에서 1번째부터 5번째를 제외하고 데이터를 불러오고 싶다면, pd.read_csv('파일경로',skipfooter=5)로 지정해주면 된다. import pandas as pd train_skipfooter = pd.read_csv('data/train.csv',skipfooter=5) test_skipfooter = pd.read_csv('data/test.csv',skipfooter=5)

index_col, 원하는 컬럼을 인덱스로 지정하여 불러오기

데이터에서 컬럼을 index로 지정하여 불러오기 데이터에서 컬럼을 인덱스로 지정하여 불러오기 위해서는 read_csv의 index_col 옵션을 사용하면 된다. 예를 들어, 데이터에 python 컬럼이 있다고 했을 때, pd.read_csv('파일경로',index_col='python')으로 지정해주면 된다. # index 컬럼을 인덱스로 지정해서 불러오기 train_index = pd.read_csv('data/train.csv',index_col='index') test_index = pd.read_csv('data/test,csv',index_col='index')

header, 원하는 행을 컬럼으로 지정하여 불러오기

데이터의 n번째을 컬럼으로 지정하여 불러오기 위해서는 read_csv 의 header 옵션을 이용하면 됩니다. 예를 들어 2번째 행을 컬럼으로 지정하여 데이터를 불러오고 싶다면 pd.read_csv('파일경로',header=1)로 지정해주면 됩니다. # 데이터의 두번째 행을 컬럼으로 지정하여 불러오기 import pandas as pd train = pd.read_csv('data/train.csv',header=1) test = pd.read_csv('data/test.csv',header=1)

nrows, n번째 행까지 불러오기

파이썬에서는 데이터 파일을 불러오기 위해서는 pandas 라이브러리의 read_csv 함수를 이용하면 손쉽게 데이터를 불러올 수 있다. read_csv 함수는 단순히 파일을 가져오는 것뿐만 아니라 다양한 옵션을 지정해 파일을 불러 올 수 있다. 예를 들어 n번째 행까지 데이터를 불러온다든지 컬럼으로 사용할 행을 지정한다든지 등의 옵션이 있다. 데이터의 n번째 행까지 불러오기 데이터를 n번째 행까지만 불러오기 위해서는 read_csv의 nrow 옵션을 이용하면 된다. 예를 들어 5번째 행까지 데이터를 불러오고 싶다면, pd.read_csv('파일경로',nrows=5)로 지정해주면 된다. # 데이터를 3번째 행까지만 불러오기(nrow=3) import pandas as pd train_3 = pd.read_..

300x250
300x250