320x100
320x100
이번 시간 부터 텍스트 데이터에서 특정 텍스트를 제거하는 4가지 방법에 대해 알아 보겠습니다.
특정 텍스트를 제거하는 작업은 텍스트 데이터를 다룰 때 꼭 필요한 작업입니다.
예를 들어 ★,<,※ 와 같은 특수 기호나, <head> , & 와 같은 html,xml 태그 등 몇몇 텍스트는 오히려 모델의 성능에 방해가 되는 요소이기 때문에 제거해주는 것이 좋습니다.
- replace()
첫 번째로 알아 볼 방법은 replace() 메소드를 사용하는 방법입니다.
replace() 메소드는 특정 문자를 새로운 문자로 변경(제거)하는 기능을 가지고 있습니다.
사용방법은 문자열. replace(old,new,[count]) 형식으로 사용할 수 있습니다.
- old: 현재 문자열에서 변경하고 싶은 문자
- new: 새로 바꿀 문자
- count: 변경할 횟수, 횟수를 입력하지 않으면 old 문자열 전체를 변경합니다. 또한 문자열에서 특정 문자열을 제거하고 싶다면 new에 ''를 넣어주면 됩니다.
string = '123,456,789'
# 출력값 : 123456,789
print(string.replace(',','',1))
# 출력값 : 123456789
print(string.replace(',' , '' ))
320x100
320x100
'빅데이터 관련 자료 > Dacon' 카테고리의 다른 글
특정 텍스트 제거 - (3) (0) | 2021.11.06 |
---|---|
특정 텍스트 제거 - (2) (0) | 2021.11.05 |
텍스트 데이터 전처리 개요 (0) | 2021.11.03 |
데이터 기본 정보 보기(info()) (0) | 2021.11.02 |
unique value 값 개수 출력(value_counts() (0) | 2021.11.01 |