특정 텍스트 제거 - (1)
Data Analyst

빅데이터 관련 자료/Dacon

특정 텍스트 제거 - (1)

carpe08 2021. 11. 4. 14:48
320x100
320x100

이번 시간 부터 텍스트 데이터에서 특정 텍스트를 제거하는 4가지 방법에 대해 알아 보겠습니다.

특정 텍스트를 제거하는 작업은 텍스트 데이터를 다룰 때 꼭 필요한 작업입니다.

예를 들어 ★,<,※ 와 같은 특수 기호나, <head> , &amp; 와 같은 html,xml 태그 등  몇몇 텍스트는 오히려 모델의 성능에 방해가 되는 요소이기 때문에 제거해주는 것이 좋습니다.

 

- replace()

첫 번째로 알아 볼 방법은 replace() 메소드를 사용하는 방법입니다.

replace() 메소드는 특정 문자를 새로운 문자로 변경(제거)하는 기능을 가지고 있습니다.

사용방법은 문자열. replace(old,new,[count]) 형식으로 사용할 수 있습니다.

- old: 현재 문자열에서 변경하고 싶은 문자

- new: 새로 바꿀 문자

- count: 변경할 횟수, 횟수를 입력하지 않으면 old 문자열 전체를 변경합니다. 또한 문자열에서 특정 문자열을 제거하고 싶다면 new에 ''를 넣어주면 됩니다.

 

string = '123,456,789'



# 출력값 : 123456,789 

print(string.replace(',','',1))



# 출력값 : 123456789 

print(string.replace(',' , '' ))
320x100
320x100