'분류 전체보기' 카테고리의 글 목록 (34 Page)
Data Analyst
300x250
300x250

분류 전체보기 365

랜덤포레스트 개념, 선언 (RandomForestRegressor())

랜덤 포레스트는 여러 개의 의사결정나무를 만들어서 이들의 평균으로 예측의 성능을 높이는 방법이며, 이러한 기법을 앙상블 기법이라고 한다. 주어진 하나의 데이터로부터 여러 개의 랜덤 데이터셋을 추출해서, 각 데이터셋을 통해 모델을 여러개 만들 수 있따. from sklearn.ensemble import RandomForestRegressor model=RandomForestRegressor()

Lv2 | 전처리 | 결측치 평균으로 대체 (fillna({mean}))

lv1에서 결측치들을 0으로 대체하였다. 하지만, 보다 나은 모델 성능을 위해서 결측치를 대체하는 방법은 여러가지 있다. 이번에는 각 피쳐의 평균값으로 대체해보겠다. 원하는 피쳐의 결측치를 해당 피쳐의 평균값으로 대체한다. df.fillna({'칼럼명':int(df['칼럼명'].mean)},implace=True) 결측치를 갖는 피쳐들을 탐색하고, 해당 피쳐들을 대체하고 나서, 결측치가 남아있는지 확인본다. df.isnull().sum()

파이썬 기초 - 6

필요한 라이브러리 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 필요한 데이터셋 불러오기 df=sns.load_dataset("mpg") df.shape # (398,9) 데이터셋 일부만 가져오기 df.head() 데이터 요약하기 df.info() 결측치 보기 df.isnull().sum() 기술 통계 보기 df.describe() 범주형일 경우 include를 사용해 볼 수 있다. df.describe(include="object") 수치형 변수 보기 수치형 변수 mpg의 unique 값 보기 df.nunique() hist()를 통해 전체 수치변수에 대한 히스토그램을 그려본..

300x250
300x250