'빅데이터 관련 자료' 카테고리의 글 목록 (28 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

Lv3 | EDA | read_csv(), info(), shape, head()

EDA의 첫 번쨰 순서로 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. CSV 파일을 pandas DataFrame class로 불러오기 위해 read_csv() 메서드를 활용할 수 있다. df = pd.read_csv(‘경로') info() 메서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, dtype에 대한 정보를 알 수 있다. df.info() shape attribute를 쓰면 데이터의 행갯수, 열갯수를 출력하여 데이터의 크기를 파악할 수 있다. df.shape head() 메서드를 통해 데이터의 대략적인 정보를 알 수 있다. df.head()

Lv2 | 튜닝 | 하이퍼파라미터, GridSearch 개념 (정지규칙)

하이퍼 파라미터 튜닝은 정지규칙 값들을 설정하는 것을 의미한다. 의사결정나무에는 정지 규칙이라는 개념이 있다. 1. 최대깊이 최대깊이는 최대로 내려갈 수 있는 depth 이다. 뿌리 노드로부터 내려갈 수 있는 깊이를 지정하며 작을수록 트리는 작아지게 된다. 2. 최소노드크기 최소노드크기는 노드를 분할하기 위한 데이터 수이다. 해당 노드에 이 값보다 적은 확률변수 수가 있다면 stop 작을수록 트리는 커지게 된다. 3.최소향상도 최소향상도는 노드를 분할하기 위한 최소 향상도이다. 향상도가 설정값 이하라면 더 이상 분할하지 않는다. 작을수록 트리는 커진다. 4.비용 복잡도 트리가 커지는 것에 대해 패널티 계수를 설정해서 불순도와 트리가 커지는 것에 대해 복잡도를 계산하는 것이다. 이와 같은 정지규칙들을 종합..

파이썬 데이터 분석을 위한 수학 & 통계 - 1회차

모집단과 표본 정의 1) 모집단 통계분석의 연구대상이 되는 모든 개체들의 집합, 올바른 의사결정을 하기 위해 관심을 갖고 연구해야 할 대상 2) 모수 모집단의 특성을 나타내는 수치로서, 올바른 의사결정을 위해 특별히 관심을 갖는 모ㅜ만이 연구의 대상이 된다. ex) 평균, 분산, 표준편차, 비율 등 3) 표본 모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합 4) 통계적 추론 모집단의 특성(평균, 분산, 비율 등)을 추측하는 것 ex) 추정(estimation), 가설검정(hypothesis test)-> 귀무가설: 반드시 보편적인 사실, 대립가설: 연구자가 원하는 바 5) 통계량 모집단의 특성(평균, 분산, 비율 등)을 추측하기 위해 사용하는 표본의 함수 6) 추..

Lv2 | 튜닝 | 변수 제거 (drop())

변수 중요도가 낮은 피쳐를 파악하고 나면 차례대로 하나씩 피쳐를 제거하면서 모델을 새로 훈련할 수 있다. 각 모델로 예측하여 성능을 비교한다. 우선 id 피쳐는 예측에 의미가 없는 피쳐이다. id 와 count 를 drop 한 X_train_1 훈련 df 을 새로 생성한다. 예측을 할 때 test 는 훈련 셋과 동일한 피쳐를 가져야 한다. 따라서 동일하게 피쳐를 drop 한 test_1 df 를 생성한다. hour_bef_windspeed 와 hour_bef_pm2.5 피쳐에 관하여도 추가로 drop 을 수행하면서 위의 과정을 반복해한다. 그럼 총 3 쌍의 X_train 셋과 test 셋이 생성된다. 이에 따라 각 모델로 예측한 예측값들을 submission 에 저장한 후, 리더보드에 제출해 점수를 비교..

Lv2 | 튜닝 | 랜덤포레스트 변수중요도 확인 (feature_importances_)

fit() 으로 모델이 학습되고 나면 feature_importances_ 속성(attribute) 으로 변수의 중요도를 파악할 수 있습니다. 변수의 중요도란 예측변수를 결정할 때 각 피쳐가 얼마나 중요한 역할을 하는지에 대한 척도입니다. 변수의 중요도가 낮다면 해당 피쳐를 제거하는 것이 모델의 성능을 높일 수 있습니다. model.feature_importances_

300x250
300x250