'분류 전체보기' 카테고리의 글 목록 (23 Page)
Data Analyst
300x250
300x250

분류 전체보기 368

특정 텍스트 제거 - (4)

이전 시간에 이어 특정 텍스트를 제거하는 방법에 대해 알아보겠습니다. 이번 시간에 알아 볼 방법은 'isdecimal()' 메소드를 사용하는 방법입니다. -isdecimal() isdecimal()는 해당 문자열이 0~9까지의 수로 이루어진 것인지 검사합니다. 다시 말해, int로 바로 변환할 수 있는 수 인지를 검사합니다. 따라서 문자열이 0~9까지의 수로 이뤄졌을 경우 True를 변환하고, 그렇지 않으면 False를 반환합니다. 사용방법은 저번 시간에 배운 isalnum()과 동일합니다. # isdecimal 메소드를 이용해 output에 해당하는 값이 출력 되도록 특정 문자열을 제거 해보세요. string = "1-2$3%4 5a" # output : 12345 #isdecimal를 이용해 알파벳값..

특정 텍스트 제거 - (3)

이전 시간에 이어 특정 텍스트를 제거하는 방법에 대해 알아보겠습니다. 이번 시간에 알아 볼 방법은 'isalnum()' 메소드를 사용하는 방법입니다. - isalnum() isalnum() 메소드는 문자열의 문자가 알파벳(A to z) 및 숫자(0~9)인지 확인하는데 사용됩니다. 문자열에 알파벳 혹은 숫자가 포함된 경우 True 값이 반환됩니다. 사용방법은 저번 시간에 배운 isalpha()와 동일합니다. # isalnum 메소드를 이용해 output에 해당하는 값이 출력 되도록 특정 문자열을 제거 해보세요. string="year : 2021, month : 09, day : 24" # output : year2021month09day24 #isalnum를 이용해 알파벳값만 담을 리스트 isalnum_..

특정 텍스트 제거 - (2)

저번 시간에 이어 특정 텍스트를 제거하는 방법에 대해 알아보겠습니다. 이번 시간에 알아 볼 방법은 'isalpha()' 메소드를 사용하는 방법입니다. - isalpha() isalpha() 메소드는 문자열에 알파벳이 포함되어 있는지 여부를 확인할 때 사용됩니다. 문자열에 알파벳만 포함된 경우 True 값이 반환됩니다. # isalpha 메소드를 이용해 해당 하는 출력값이 나오도록 문자열을 변경해 보세요. string = "Hello$@Python3&" #isalpha를 이용해 알파벳값만 담을 리스트 isalpha = [] #isalpha를 이용해 알파벳값인지 판별 for c in string: if c.isalpha(): isaplha_list.append(c) # join() 메소드를 이용해 알파벳값 ..

특정 텍스트 제거 - (1)

이번 시간 부터 텍스트 데이터에서 특정 텍스트를 제거하는 4가지 방법에 대해 알아 보겠습니다. 특정 텍스트를 제거하는 작업은 텍스트 데이터를 다룰 때 꼭 필요한 작업입니다. 예를 들어 ★,<,※ 와 같은 특수 기호나, , & 와 같은 html,xml 태그 등 몇몇 텍스트는 오히려 모델의 성능에 방해가 되는 요소이기 때문에 제거해주는 것이 좋습니다. - replace() 첫 번째로 알아 볼 방법은 replace() 메소드를 사용하는 방법입니다. replace() 메소드는 특정 문자를 새로운 문자로 변경(제거)하는 기능을 가지고 있습니다. 사용방법은 문자열. replace(old,new,[count]) 형식으로 사용할 수 있습니다. - old: 현재 문자열에서 변경하고 싶은 문자 - new: 새로 바꿀 문자..

텍스트 데이터 전처리 개요

이번 시간부터는 텍스트 데이터를 전처리하는 과정에 대해 배워보겠습니다. 우선, 텍스트 데이터 전처리에는 정해진 정답은 없으며 데이터와 목적에 따라 달라집니다. 이 과정은 주로 모델의 입력인 단어, 문장, 문서의 vector를 만들기 전에 진행됩니다. 1. 클렌징 텍스트 데이터에서 분석에 오히려 방해가 되는 불필요한 문자나 기호 등을 분석 전에 제거하는 방법입니다. 예를 들어, ★,<,※ 와 같은 특수 기호나, , & 와 같은 html,xml 태그 등을 제거 합니다. 2. 필터링/ STOPWORD 지정 대회의 목적과 분석자의 재량에 따라 불필요한 단어나 분석에 큰 의미가 없는 단어를 STOPWORD(불용어)로 설정 후 데이터에서 제거해주는 과정입니다. 3. 토큰화(Tokenization) 형태소 분석을 통..

unique value 값 개수 출력(value_counts()

데이터 프레임에서 각 column별 고유값의 개수를 구하기 위해서는 value_counts() 함수를 이용하면 됩니다. value_counts()는 어떤 컬럼/Seires의 uniqu 한 value 들을 count 해주는 함수 입니다. value_count() 함수를 이용하면 출력값 으로 인덱스가 unique value로 값은 count가 들어가 있는 Series가 출력 됩니다. 예를 들어 데이터프레임(df) 에서 category 라는 컬럼이 있다면 df['category'].value_counts() 로 category 컬럼의 고유값의 개수를 출력 할 수 있습니다. 보통 value_counts() 함수는 데이터에서 label 값들의 비율을 확인 할 때 많이 사용합니다. import pandas as p..

데이터 결측치 확인하기 - (isnull().sum())

파이썬에서 데이터의 결측치를 확인하는 방법은 여러가지가 있지만 그중 판다스의 isnull 함수를 이용하면 보다 쉽게 결측치를 확인 하실 수 있습니다. isnull() 함수는 결측값을 True로, 결측값이 아닌 값을 False로 반환합니다. 그런데 이 때 각각의 값에 대하여 결측값 여부를 검사하기 때문에 sum 함수를 덧붙여 사용하면 각 컬럼마다 결측치가 몇개 있는지 확인할 수 있습니다. True는 1에 대응하고, False는 0에 대응하기 때문에 sum 함수를 사용할 경우 결과값처럼 컬럼 별 결측치 개수의 총합이 출력 됩니다. # train 데이터 결측치 갯수 출력 train.isnull().sum() # test 데이터 결측치 갯수 출력 test.isnull().sum()

데이터 확인하기 - (head(),tail())

pandas에서 데이터를 확인하는 방법을 여러가지가 있습니다. 그 중 가장 쉽고 단순하게 데이터를 확인할 수 있는 메서드는 head()와 tail() 메서드를 활용하는 방법이다. head(n=5) DataFrame의 처음 n줄의 데이터를 출력 n의 기본값은 5이면 아무 입력이 없을 경우(ex.head()) 5줄을 기본으로 출력합니다. tail(n=5) DataFrame 내의 마지막 n줄의 데이터를 출력 n의 기본값은 head()와 동일하게 5이며, 아무 입력이 없을 경우(ex.tail()) 하위 5줄을 기본으로 출력합니다. #train 데이터의 상위 5개 행 출력 train.head() #train 데이터의 상위 7개 행 출력 train.head(7) #train 데이터의 하위 3개 행 출력 train...

index=False, 데이터를 저장할 때 index 제외하고 저장

파이썬에서 데이터 파일을 내보내기 위해서는 pandas 라이브러리의 to_csv 함수를 이용하면 손쉽게 데이터를 내보낼수있다. DataFrame.to_csv('path')로 저장할 수 있고, path에 저장하고 싶은 경로와 파일명을 함께 넣어주면 된다. 하지만, to_csv 메서도 안에 아무런 옵션도 지정해주지 않는다면 다음과 같이 인덱스도 데이터에 포함되어 저장되기 떄문에 index는 포함하지않고 저장하는 옵션을 지정해주어야 한다. index를 포함시키지 않고 데이터를 저장하기 위해서는 to_csv(inedx=False)로 지정해서 데이터를 저장해주면 된다. #index를 포함하지 않고 데이터 저장하기 import pandas as pd train.to_csv('data/train.csv',index=..

300x250
300x250