특정 텍스트 제거 - (5)
Data Analyst

빅데이터 관련 자료/Dacon

특정 텍스트 제거 - (5)

carpe08 2021. 11. 8. 20:25
320x100
320x100

이번시간에는 이전에 배웠던 특정 텍스트를 제거하는 방법을 이용해 청와대 청원 데이터에서 불필요한 텍스트를 제거해 보겠습니다.

 

청와대 청원 데이터를 살펴보면 아래 사진 처럼 \\n 와 같은 문자열이 많이 보입니다. 해당 문자열은 줄바꿈을 나타내는 의미이며, 텍스트에서 불필요한 문자열이기 때문에 데이터 분석에 방해가 되지 않게 제거해주도록 하겠습니다.

train_data[0]

모든 train데이터에 한번에 replace 함수를 적용하기 위해서는 apply() 함수, lambda() 함수를 함께 사용하면 됩니다.

사용방법은 아래와 같습니다.

import pandas as pd

train=pd.read_csv('data/train.csv')
test=pd.read_csv('data/test.csv')

train.data[0]
#output
#신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고\n보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.\n저도 신혼부....

# train,test 데이터에서  '\\n' 단어를 제거해 주세요

# apply(lambda x : x를 변화시킬 형태) 

train['data'] = train['data'].apply(lambda x: x.replace('\\n','')

train.data[0]
#output
#신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.저도 신혼부....
320x100
320x100

'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글

형태소 분석기 - (2)  (0) 2021.11.10
형태소 분석기 - (1)  (0) 2021.11.09
특정 텍스트 제거 - (4)  (0) 2021.11.07
특정 텍스트 제거 - (3)  (0) 2021.11.06
특정 텍스트 제거 - (2)  (0) 2021.11.05