이서
Data Analyst
300x250
300x250

전체 글 347

Lv1 | 모델링 | scikit-learn (DecisionTreeClassifier)

import sklearn from sklearn.tree import DecisionTreeClassifier EDA를 통해 데이터를 살펴보고, 전처리를 하였다면, 본격적으로 머신러닝 모델을 훈련시키고, 훈련된 모델을 통해 예측을 한다. 선행 연구된 놀랍고 다양한 모델들이 있는데, 이러한 머신러닝 모델들을 TensorFlow, PyTorch 등 Python 오픈 소스 머신 러닝 라이브러를 통해 손쉽게 구현 가능하다 먼저 sckit-learn 라이브러리를 사용해 모델링을 시작한다. scikit-learn 홈페이지: https://scikit-learn.org/stable/

EDA Project - 데이터 분석

EDA Project 프로젝트 기간: 7월 14일 ~ 8월 2일 팀명: 플로우 멘토: 윤00(머신러닝 엔지니어) 팀원: 최00, 박상욱, 홍00, 김00 담당매니저: 김00 개최: NanoDegree 4. 데이터 분석 전처리 된 데이터를 가지고 본격적으로 데이터 분석을 시작하였다. 내가 한 분석을 위주로 설명을 하겠다. 4.1 날짜, 시간, 요일별 소비 패턴 파악하기 분석 의도 광고는 많은 사람들에게 노출이 되어야 그 효과를 제대로 발휘 할 수 있다. 브라질의 국민들이 어떤 요일에, 어떤 시간대에 주로 주문을 하는지를 파악한다면, 언제 광고를 노출 시켜야 가장 효율적인 홍보 효과를 누릴 수 있는지를 파악하고자 하였다. 2016년부터 2018년까지 전체적인 브라질 상품 주문량의 증감 추이를 시계열로 분석하..

파이썬 기초 - 4

import 필요한 라이브러리를 로드 import pandas as pd import numpy as np import seaborn as sns DataFrame 행과 열로 구성된 비어있는 데이터프레임을 생성 df = pd.DataFrame() df 컬럼 추가하기 df["자동차"]=["소형차", "중형차", "대형차", "소형차", "대형차", "중형차"] df["가격"]=[3000, 5000, 7000, 4000, 9000, 7000] df["가격"] #series형태 df[["가격"]] #dataframe 형태 tolist() 가격 컬럼전체를 리스트 형태로 변경합니다. df["가격"].tolist() 컬럼값 변경하기 df.columns=['차종류','시세'] 데이터 요약하기 df.info() # 해..

Lv1 | EDA | 결측치 확인하기 (is_null())

결측치는 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 'NA' 또는 'NULL' 이라고 표현한다. pandas에서는 결측치를 NaN으로 표현하며, isnull() 메서드를 사용하면 DataFrame에서 NaN 값을 확인할 수 있다. isnull() 메서드는 DataFrame에서 데이터가 NaN 값이면 True로 , 그렇지 않으면 False로 리턴한다. import pandas as pd import numpy as np df=pd.DataFrame({'name':['a','b','c'],'age':[30,np.nan,19],'class':[np.nan,2,3]}) df.isnull() df.isnull().sum() 하게 되면 데이터 프레임의 각 열 별 결측치 수를 확인할 수 있다.

EDA Project - 데이터 전처리

EDA Project 프로젝트 기간: 7월 14일 ~ 8월 2일 팀명: 플로우 멘토: 윤00(머신러닝 엔지니어) 팀원: 최00, 박상욱, 홍00, 김00 담당매니저: 김00 개최: NanoDegree 3. 데이터 전처리 - 상품 카테고리명 한국어 번역 from googletrans import Translator # english to korea trans = Translator() result = trans.translate("english.", src='en', dest='ko') result.text category_list = order_df['product_category_name_english'].value_counts().index.tolist() print(category_list) cat..

Lv1 | EDA | 파일 불러오기 (read_csv())

파이썬에서 데이터 파일(csv 파일)을 불러오기 위해서는 pandas 라이브러리를 이용한다. pandas를 이용해 csv 파일을 불러오기 위해서는 아래와 같이 pandas를 먼저 import 해야한다. 그리고 약어로 지정한 pd를 사용하여 read_csv함수를 통해 csv 파일을 불러 올 수 있다. import [라이브러리] as [사용할이름] import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns

파이썬 기초 - 2

리스트의 인덱싱 - car라는 변수에 담겨있는 '구급차'를 인덱싱을 통해 가져오기 car 리스트의 첫번째 원소는 0부터 시작하므로 구급차는 인덱싱 순서로 2번째에 있다. car=['경찰차','소방차','구급차','녹차'] car[2] - 1번째 인덱스 가져오기 car[1] - 마지막 인덱스 가져오기 car[-1] 문자열을 리스트로 만들기 - split(): address를 공백으로 문자열 분리 address=" 경기도 파주시 심학산로 000 1001동 " address_list=address.split() - len(): 문자열 길이 구하기 len(address) - len(): 리스트의 길이 구하기 총 리스트의 길이로 리스트 안의 원소 개수와 같다. len(address_list) - 인덱싱으로 '파주..

파이썬 기초 - 1

현재 주피터 노트북이 있는 경로를 출력할 수 있다. %pwd Zen of Python - 파이썬의 철학이 잘 담겨있는 Zen of Python 을 출력할 수 있다. - import를 통해 파이썬의 라이브러리나 패키지를 가져올 수 있다. import this boolean 파이썬에는 명시적인 것이 암시적인 것보다 낫다라는 철학이 있다. True 나 False는 0과 1로도 표현할 수 있으나 명시적으로 표현하기 위해 True와 False를 사용한다. # True는 1과 같음을 표현하기 # 파이썬에서는 같음을 비교할 때 == 연산을 사용한다. print(True== 1) print(True=="1") True != "1" # 문자열 1과 True는 다르다. False != "1" # False 도 마찬가지이다..

300x250
300x250