'분류 전체보기' 카테고리의 글 목록 (32 Page)
Data Analyst
300x250
300x250

분류 전체보기 365

Lv3 | EDA | 타깃 변수 분포 시각화 seaborn distplot()

Lv3 부터 EDA과정에 시각화를 진행한다. 가장 중요한 변수, 예측하고자 하는 변수인 종속변수의 분포를 시각해보자. matplotlub, seaborn 라이브러리로 시각화를 출력할 수 있다. 시각화 결과를 통해 머신러닝 방향성을 잡을 수 있다. import matplotlib.pyplot as plt import seaborn as sns 시각화를 진행할 때는 보통 copy() 메서드로 복사본을 생성한 후 진행한다 dfcopy=df.copy() seaborn의 distplot() 메서드를 이용한다. sns.distplot(df['피쳐명'],kde=True, bins=None) df['피쳐명']: 출력하고자 하는 컬럼 kde: 그래프에 선을 출력할건지 여부 bins: 출력할 막대그래프 갯수

파이썬 데이터 분석을 위한 수학 & 통계 - 2회차 - 2

확률변수 1. 확률변수의 기댓값 - 확률변수의 결과값을 그 확률 변수의 확률분포를 가중치로 평균한 값 - 확률실험을 무한히 반복했을 때 관측되는 확률변수 값들의 평균 이산형 연속형 기댓값의 특성 2. 분산과 표준편차 확률변수의 분산(variance) 분산의 특성 3. 공분산 두 확률변수의 공분산(covariance) 분산과 공분산의 특성 독립일 경우 공분산이 0이 된다. 4. 상관계수 두 확률변수의 상관계수(correlation coefficient) 상관계수를 하기위해 선형 관계이여야하며, 산점도를 통해 데이터의 형태가 특정한 경우(데이터가 산발적으로 흩어져있는 경우) 전처리를 해준다.

파이썬 데이터 분석을 위한 수학 & 통계 - 2회차 - 1

확률변수와 확률분포 1. 확률변수와 확률분포의 개념 확률변수: 표본공간의 각 원소를 실수 값으로 바꾸는 함수, 확률분포를 가짐 이산표본공간: 유한개 또는 셀 수 있는 무한개의 원소로 구성된 표본공간 이산확률변수: ex) 동전의 앞면이 나올 떄까지의 시행 횟수 연속표본공간: 실직선 상의 임의의 구간으로 나타낼 수 있는 표본 공간 연속확률변수: ex) 사람의 키와 몸무게, 제품의 수명 이산확률분포: 이산표본공간의 확률변수로부터 생성된 확률분포 확률질량함수(probability mass function) 연속확률분포(continuous probability distrubution) -연속적인 값을 갖는 확률변수의 확률분포 -확률분포함수 f(x)는 확률 P(a

Lv3 | EDA | read_csv(), info(), shape, head()

EDA의 첫 번쨰 순서로 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. CSV 파일을 pandas DataFrame class로 불러오기 위해 read_csv() 메서드를 활용할 수 있다. df = pd.read_csv(‘경로') info() 메서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, dtype에 대한 정보를 알 수 있다. df.info() shape attribute를 쓰면 데이터의 행갯수, 열갯수를 출력하여 데이터의 크기를 파악할 수 있다. df.shape head() 메서드를 통해 데이터의 대략적인 정보를 알 수 있다. df.head()

300x250
300x250