'전처리' 태그의 글 목록
Data Analyst
300x250
300x250

전처리 4

머신러닝 전 데이터 전처리 방법

데이터 전처리는 데이터를 분석이나 머신러닝 모델에 적용하기 전에 데이터를 정리하고 가공하는 과정을 말합니다. 이를 통해 데이터의 품질을 향상시키고 모델의 성능을 향상시킬 수 있습니다. 아래는 데이터 전처리를 잘 할 수 있는 몇 가지 방법과 주의할 점을 제시합니다. 데이터 이해하기: 데이터의 특성과 분포를 잘 이해하는 것이 중요합니다. 이를 통해 어떤 전처리가 필요한지 판단할 수 있습니다. 데이터 누락 확인: 결측치(Missing values)를 확인하고 적절한 대체나 제거를 수행하세요. pandas 라이브러리를 사용하면 결측치 처리가 용이합니다. import pandas as pd # 결측치 확인 df.isnull().sum() # 결측치 대체 df.fillna(value, inplace=True) 이상..

특정 텍스트 제거 - (1)

이번 시간 부터 텍스트 데이터에서 특정 텍스트를 제거하는 4가지 방법에 대해 알아 보겠습니다. 특정 텍스트를 제거하는 작업은 텍스트 데이터를 다룰 때 꼭 필요한 작업입니다. 예를 들어 ★,<,※ 와 같은 특수 기호나, , & 와 같은 html,xml 태그 등 몇몇 텍스트는 오히려 모델의 성능에 방해가 되는 요소이기 때문에 제거해주는 것이 좋습니다. - replace() 첫 번째로 알아 볼 방법은 replace() 메소드를 사용하는 방법입니다. replace() 메소드는 특정 문자를 새로운 문자로 변경(제거)하는 기능을 가지고 있습니다. 사용방법은 문자열. replace(old,new,[count]) 형식으로 사용할 수 있습니다. - old: 현재 문자열에서 변경하고 싶은 문자 - new: 새로 바꿀 문자..

Lv4 | 전처리 | 연속형 변수 변환 (2)

연속형 변수를 범주형 변수로 변환 시키는 방법 중 2번째 방법에 대해 알아보겠다. 수치 범위 구간을 직접 지정해 레이블링 하기. 판다스의 cut() 함수로 레이블링 하기 지난 시간에는 직접 수치 범위를 지정해서 나눴다. 직접 수치 범위를 나눌 경우 조금 더 세밀하게 조정가능하다는 장점이 있지만, 여러 변수에 한번에 적용하기는 어렵고 각각의 변수에 맞는 범위를 지정하기에는 많은 시간이 소요될 것이다. 이번 시간에는 판다스의 cut() 함수를 이용해 손쉽게 연속형 변수를 범주형 변수로 변환 시켜보도록 하겠다. 사용 방법은 아래와 같다. train['변수명'] = pd.cut(train['변수명'], 나눌 범주의 갯수(정수형), labels=False) # train 데이터의 alcohol 변수를 구간이 5개..

300x250
300x250