'분류 전체보기' 카테고리의 글 목록 (38 Page)
잡학다식의 지식공방
300x250

분류 전체보기 420

파이썬 데이터 분석을 위한 수학 & 통계 - 2회차 - 1

확률변수와 확률분포 1. 확률변수와 확률분포의 개념 확률변수: 표본공간의 각 원소를 실수 값으로 바꾸는 함수, 확률분포를 가짐 이산표본공간: 유한개 또는 셀 수 있는 무한개의 원소로 구성된 표본공간 이산확률변수: ex) 동전의 앞면이 나올 떄까지의 시행 횟수 연속표본공간: 실직선 상의 임의의 구간으로 나타낼 수 있는 표본 공간 연속확률변수: ex) 사람의 키와 몸무게, 제품의 수명 이산확률분포: 이산표본공간의 확률변수로부터 생성된 확률분포 확률질량함수(probability mass function) 연속확률분포(continuous probability distrubution) -연속적인 값을 갖는 확률변수의 확률분포 -확률분포함수 f(x)는 확률 P(a

Lv3 | EDA | read_csv(), info(), shape, head()

EDA의 첫 번쨰 순서로 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. CSV 파일을 pandas DataFrame class로 불러오기 위해 read_csv() 메서드를 활용할 수 있다. df = pd.read_csv(‘경로') info() 메서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, dtype에 대한 정보를 알 수 있다. df.info() shape attribute를 쓰면 데이터의 행갯수, 열갯수를 출력하여 데이터의 크기를 파악할 수 있다. df.shape head() 메서드를 통해 데이터의 대략적인 정보를 알 수 있다. df.head()

Lv2 | 튜닝 | 하이퍼파라미터, GridSearch 개념 (정지규칙)

하이퍼 파라미터 튜닝은 정지규칙 값들을 설정하는 것을 의미한다. 의사결정나무에는 정지 규칙이라는 개념이 있다. 1. 최대깊이 최대깊이는 최대로 내려갈 수 있는 depth 이다. 뿌리 노드로부터 내려갈 수 있는 깊이를 지정하며 작을수록 트리는 작아지게 된다. 2. 최소노드크기 최소노드크기는 노드를 분할하기 위한 데이터 수이다. 해당 노드에 이 값보다 적은 확률변수 수가 있다면 stop 작을수록 트리는 커지게 된다. 3.최소향상도 최소향상도는 노드를 분할하기 위한 최소 향상도이다. 향상도가 설정값 이하라면 더 이상 분할하지 않는다. 작을수록 트리는 커진다. 4.비용 복잡도 트리가 커지는 것에 대해 패널티 계수를 설정해서 불순도와 트리가 커지는 것에 대해 복잡도를 계산하는 것이다. 이와 같은 정지규칙들을 종합..

파이썬 데이터 분석을 위한 수학 & 통계 - 1회차

모집단과 표본 정의 1) 모집단 통계분석의 연구대상이 되는 모든 개체들의 집합, 올바른 의사결정을 하기 위해 관심을 갖고 연구해야 할 대상 2) 모수 모집단의 특성을 나타내는 수치로서, 올바른 의사결정을 위해 특별히 관심을 갖는 모ㅜ만이 연구의 대상이 된다. ex) 평균, 분산, 표준편차, 비율 등 3) 표본 모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합 4) 통계적 추론 모집단의 특성(평균, 분산, 비율 등)을 추측하는 것 ex) 추정(estimation), 가설검정(hypothesis test)-> 귀무가설: 반드시 보편적인 사실, 대립가설: 연구자가 원하는 바 5) 통계량 모집단의 특성(평균, 분산, 비율 등)을 추측하기 위해 사용하는 표본의 함수 6) 추..

Lv2 | 튜닝 | 변수 제거 (drop())

변수 중요도가 낮은 피쳐를 파악하고 나면 차례대로 하나씩 피쳐를 제거하면서 모델을 새로 훈련할 수 있다. 각 모델로 예측하여 성능을 비교한다. 우선 id 피쳐는 예측에 의미가 없는 피쳐이다. id 와 count 를 drop 한 X_train_1 훈련 df 을 새로 생성한다. 예측을 할 때 test 는 훈련 셋과 동일한 피쳐를 가져야 한다. 따라서 동일하게 피쳐를 drop 한 test_1 df 를 생성한다. hour_bef_windspeed 와 hour_bef_pm2.5 피쳐에 관하여도 추가로 drop 을 수행하면서 위의 과정을 반복해한다. 그럼 총 3 쌍의 X_train 셋과 test 셋이 생성된다. 이에 따라 각 모델로 예측한 예측값들을 submission 에 저장한 후, 리더보드에 제출해 점수를 비교..

300x250
300x250