'분류 전체보기' 카테고리의 글 목록 (40 Page)
잡학다식의 지식공방
300x250

분류 전체보기 412

파이썬 기초 - 5

시각화 도구: seaborn 필요한 라이브러리 불러오기 import pandas as pd import seaborn as sns import numpy as np 필요한 데이터셋 불러오기 df=sns.load_dataset("anscombe") #씨본에서 제공하는 데이터, pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/anscombe.csv") 똑같음 df.shape #(44, 3) df_1,2,3,4, 만들기 df_1=df[df["dataset"]=='I'] df_1.describe() df_1.corr() df_2,3,4도 똑같이 생성하면 된다. series 빈도수 구하기 - value_counts() df["d..

EDA Project - 데이터 시각화(태블로 결과물)

EDA Project 프로젝트 기간: 7월 14일 ~ 8월 2일 팀명: 플로우 멘토: 윤00(머신러닝 엔지니어) 팀원: 최00, 박상욱, 홍00, 김00 담당매니저: 김00 개최: NanoDegree 광고 타켓 지표 대시보드 태블로로 시각화 - 연도-월마다 요일별 시간대 주문 시각화 - State 별 주문 건수(Top5 state-) 시각화 - 카테고리별 주문 건수 시각화 - 주문 트렌드 시각화 https://public.tableau.com/app/profile/in.wha.hong/viz/1_16270920202890/1 1차 프로젝트 1차 프로젝트 public.tableau.com Notion 포트폴리오 https://www.notion.so/Brazil-E-commerce-Olist-busines..

Lv1 | 모델링 | 모델개념 (의사결정나무)

# 의사결정나무란? 결정 트리는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. A 를 만족하는가? True False B를 만족하는가? C를 만족하는가? True False True False D 이다 F이다 G이다 H이다 EDA를 통해 data를 살펴보면 각 행들은 피쳐들을 갖고 있다. 이 중 하나의 피쳐를 정해서 해당 피쳐의 값에 대해 특정한 하나의 값을 정한다면, 이를 기준으로 모든 행들을 두개의 노드로 분류할 수 있다. 대표적인 의사결정나무인 CART 의사결정 나무는 이진분할을 사용한다. 파생된 두 개의 노드에 대해서 또 다시 새로운 피쳐의 특정한 값을 정하고 분류를 정한다. 이 과정을 반복하게 되면 점점 피쳐의 값에 따라 data들이 분류가 되는데 이를 의..

카테고리 없음 2021.07.29

Lv1 | 모델링 | scikit-learn (DecisionTreeClassifier)

import sklearn from sklearn.tree import DecisionTreeClassifier EDA를 통해 데이터를 살펴보고, 전처리를 하였다면, 본격적으로 머신러닝 모델을 훈련시키고, 훈련된 모델을 통해 예측을 한다. 선행 연구된 놀랍고 다양한 모델들이 있는데, 이러한 머신러닝 모델들을 TensorFlow, PyTorch 등 Python 오픈 소스 머신 러닝 라이브러를 통해 손쉽게 구현 가능하다 먼저 sckit-learn 라이브러리를 사용해 모델링을 시작한다. scikit-learn 홈페이지: https://scikit-learn.org/stable/

EDA Project - 데이터 분석

EDA Project 프로젝트 기간: 7월 14일 ~ 8월 2일 팀명: 플로우 멘토: 윤00(머신러닝 엔지니어) 팀원: 최00, 박상욱, 홍00, 김00 담당매니저: 김00 개최: NanoDegree 4. 데이터 분석 전처리 된 데이터를 가지고 본격적으로 데이터 분석을 시작하였다. 내가 한 분석을 위주로 설명을 하겠다. 4.1 날짜, 시간, 요일별 소비 패턴 파악하기 분석 의도 광고는 많은 사람들에게 노출이 되어야 그 효과를 제대로 발휘 할 수 있다. 브라질의 국민들이 어떤 요일에, 어떤 시간대에 주로 주문을 하는지를 파악한다면, 언제 광고를 노출 시켜야 가장 효율적인 홍보 효과를 누릴 수 있는지를 파악하고자 하였다. 2016년부터 2018년까지 전체적인 브라질 상품 주문량의 증감 추이를 시계열로 분석하..

300x250
300x250