'전처리' 태그의 글 목록

이서

Data Analyst

300x250

전처리 4

데이터 전처리는 데이터를 분석이나 머신러닝 모델에 적용하기 전에 데이터를 정리하고 가공하는 과정을 말합니다. 이를 통해 데이터의 품질을 향상시키고 모델의 성능을 향상시킬 수 있습니다. 아래는 데이터 전처리를 잘 할 수 있는 몇 가지 방법과 주의할 점을 제시합니다. 데이터 이해하기: 데이터의 특성과 분포를 잘 이해하는 것이 중요합니다. 이를 통해 어떤 전처리가 필요한지 판단할 수 있습니다. 데이터 누락 확인: 결측치(Missing values)를 확인하고 적절한 대체나 제거를 수행하세요. pandas 라이브러리를 사용하면 결측치 처리가 용이합니다. import pandas as pd # 결측치 확인 df.isnull().sum() # 결측치 대체 df.fillna(value, inplace=True) 이상..

빅데이터 관련 자료/Machine Learning 2024.01.22

특정 텍스트 제거 - (1)

이번 시간 부터 텍스트 데이터에서 특정 텍스트를 제거하는 4가지 방법에 대해 알아 보겠습니다. 특정 텍스트를 제거하는 작업은 텍스트 데이터를 다룰 때 꼭 필요한 작업입니다. 예를 들어 ★,＜,※ 와 같은 특수 기호나, , & 와 같은 html,xml 태그 등 몇몇 텍스트는 오히려 모델의 성능에 방해가 되는 요소이기 때문에 제거해주는 것이 좋습니다. - replace() 첫 번째로 알아 볼 방법은 replace() 메소드를 사용하는 방법입니다. replace() 메소드는 특정 문자를 새로운 문자로 변경(제거)하는 기능을 가지고 있습니다. 사용방법은 문자열. replace(old,new,[count]) 형식으로 사용할 수 있습니다. - old: 현재 문자열에서 변경하고 싶은 문자 - new: 새로 바꿀 문자..

빅데이터 관련 자료/Dacon 2021.11.04

Lv4 | 전처리 | 연속형 변수 변환 (2)

연속형 변수를 범주형 변수로 변환 시키는 방법 중 2번째 방법에 대해 알아보겠다. 수치 범위 구간을 직접 지정해 레이블링 하기. 판다스의 cut() 함수로 레이블링 하기 지난 시간에는 직접 수치 범위를 지정해서 나눴다. 직접 수치 범위를 나눌 경우 조금 더 세밀하게 조정가능하다는 장점이 있지만, 여러 변수에 한번에 적용하기는 어렵고 각각의 변수에 맞는 범위를 지정하기에는 많은 시간이 소요될 것이다. 이번 시간에는 판다스의 cut() 함수를 이용해 손쉽게 연속형 변수를 범주형 변수로 변환 시켜보도록 하겠다. 사용 방법은 아래와 같다. train['변수명'] = pd.cut(train['변수명'], 나눌 범주의 갯수(정수형), labels=False) # train 데이터의 alcohol 변수를 구간이 5개..

빅데이터 관련 자료/Dacon 2021.09.09

결측치 대체 보간법

결측치들을 평균값으로 대체하였으면, 이번에는 피쳐의 정보성을 강조하기 위해 보간보를 사용해서 결측치를 채우는 방법도 있다. 데이터에 따라서 결측치를 어떻게 대체할지 결정하는 것은 엔지니어의 결정이다. Python pandas의 interpolate() method를 사용해 구현하면 다음과 같다. df.interpolate(inplace=True)

빅데이터 관련 자료/Dacon 2021.08.04

현업 데이터 분석가의 실무 및 일상 Story

250x250

전처리, lgbm, 데이콘, hadoop, Oracle SQL, SQL, Python, kubernetes, 파이썬, 하이퍼파라미터, html 기초, PySpark, KSQL, 해커랭크, hackerrank, train_test_split, 다중공선성, 머신러닝, 판다스, 파이썬 기초,

Today :
Yesterday :

300x250

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

전처리 4

티스토리툴바