320x100
320x100
이번시간에는 이전에 배웠던 특정 텍스트를 제거하는 방법을 이용해 청와대 청원 데이터에서 불필요한 텍스트를 제거해 보겠습니다.
청와대 청원 데이터를 살펴보면 아래 사진 처럼 \\n 와 같은 문자열이 많이 보입니다. 해당 문자열은 줄바꿈을 나타내는 의미이며, 텍스트에서 불필요한 문자열이기 때문에 데이터 분석에 방해가 되지 않게 제거해주도록 하겠습니다.
train_data[0]
모든 train데이터에 한번에 replace 함수를 적용하기 위해서는 apply() 함수, lambda() 함수를 함께 사용하면 됩니다.
사용방법은 아래와 같습니다.
import pandas as pd
train=pd.read_csv('data/train.csv')
test=pd.read_csv('data/test.csv')
train.data[0]
#output
#신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고\n보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.\n저도 신혼부....
# train,test 데이터에서 '\\n' 단어를 제거해 주세요
# apply(lambda x : x를 변화시킬 형태)
train['data'] = train['data'].apply(lambda x: x.replace('\\n','')
train.data[0]
#output
#신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.저도 신혼부....
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
형태소 분석기 - (2) (0) | 2021.11.10 |
---|---|
형태소 분석기 - (1) (0) | 2021.11.09 |
특정 텍스트 제거 - (4) (0) | 2021.11.07 |
특정 텍스트 제거 - (3) (0) | 2021.11.06 |
특정 텍스트 제거 - (2) (0) | 2021.11.05 |