'빅데이터 관련 자료' 카테고리의 글 목록 (14 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (1)

다루는 내용 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 데이터셋 다운로드 위치 : https://www.data.go.kr/dataset/3035522/fileData.do 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 파이썬에서 쓸 수 있는 엑셀과도 유사한 판다스 라이브러리를 불러옵니다. import pandas as pd import numpy as np import mat..

파이썬 기초용어 정리 - 제어문, 입출력 etc

제어문 if문 : if 이후의 조건들로 상황에 맞게 수행시키기 위한 제어문 while문 : 반복해서 문장을 수행해야할 경우 사용되는 반복문 for문: while문과 비슷한 반복문이지만 문장 구조의 이해가 용이하다. 입출력 함수(function) : 특정 행위를 필요할 때 반복적으로 수행해야하는 경우 공통된 부분을 하나의 코드로 대변되게 만드는 과정으로 python에서는 def라는 형식으로 시작한다. 매개변수(parameter) : 함수에 입력으로 전달된 값을 받는 변수 인수(argument) : 함수를 호출할 때 전달되는 입력값 람다(lambda) : 함수를 생성할 때 사용되는 예약어로 def와 동일한 역할을 하며 일반적으로 함수를 한줄로 간결하게 만들 때 사용된다. input : 사용자가 입력한 값을 ..

Python 기초 용어 정리 - 자료형

숫자형(Number) : 숫자 형태로 이루어진 자료형 문자열(String) : 문자, 단어 등으로 구성된 문자들의 집합을 관리하는 자료형 리스트(list) : 여러개의 자료를 하나의 변수로 관리할 때 사용하는 자료형 튜플(tuple) : 여러개의 자료를 하나의 변수로 관리할 때 사용되는 면에서는 list와 거의 같지만 데이터를 변경할 수 없는 자료형 딕셔너리(dictionary) : 여러개의 자료를 하나의 변수로 관리하는 측면은 list나 tuple과 비슷하지만 key와 value로 이루어져 있고 순차적인 요소값으로 관리되지 않고 key값을 통해 value를 구하는 자료형 집합(set) : 중복이 허용되지 않고, 순서가 없는, 집합에 관련된 것을 쉽게 처리하기 위한 자료형으로 순서가 없기때문에 자료에 접..

데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 3

다차원 모델링 다차원 모델링에서는 분석 데이터 제공 시 선호하는 기법이며, 두 가지 요구 사항을 충족할 때 가치가 커진다. 1. 비즈니스 사용자에게 이해하기 쉬운 데이터 제공 2. 빠른 쿼리 성능 제공 다차원 모델은 관계형 DBMS에서 구현되지만, 3차 정규화와는 다르다. 데이터 중복 제거를 추구하는 3차 정규화 구조는 데이터를 다수의 개별 엔터티로 분리하고, 각각은 관계형 테이블이 된다. 업계에서 3차 정규화 모델은 테이블간의 관계를 표한하는 ERD 모델로 불려진다. 3차 정규화 모델과 다차원 모델은 조인으로 연결된 관계형 테이블로 구성되었다는 공통점이 있지만, 정규화 정도에서 차이가 난다. 갱신과 삽입 트랜잭션은 DB의 한 부분만 접근하기 때문에 3차 정규화 구조는 업무 처리에 유용하다. 하지만 정규..

데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 2

데이터 웨어하우스와 비즈니스 인텔리전스의 목표 DW/BI 목표는 현업 관리자에게 쉽게 들을 수 있다. "데이터를 사방으로 자르고 쪼개서 분석하고 싶다. " "중요한 것만 보여줘라." "유저들이 정보 활용을 통해 사실 기반으로 의사결정하기를 원한다." "엄청난 데이터를 수집하지만, 접근이 불가하다." "비즈니스 사용자도 쉽게 데이터에 접근하고 싶다." 이러한 이야기는 DW/BI 시스템의 근본적 요구 사항이 된다. 이번엔 관리자의 이야기를 요구 사항으로 정리해보겠다. 1. 정보에 쉽게 접근 가능하도록 만들어야 된다. 데이터는 개발자뿐만 아니라 사용자에게도 직관적이고 분명해야 하며, 데이터 구조와 레이블은 사용자의 사고 절차와 언어에 근접해야 한다. 분석용 데이터를 분리하고 데이터에 접근하는 BI툴과 어플리케..

데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 1

서로 다른 세계: 데이터 수집과 데이터 분석 조직의 가장 중요한 자산 중 하나는 정보이다. 정보는 대부분 두 가지 목적이 있다. 운영상 기록의 보관과 의사결정을 위한 분석 운영 시스템은 데이터를 입력하는 곳이고, DW/BI 시스템은 데이터를 꺼내 사용하는 곳이다. 운영 시스템의 사용자는 조직의 수레바퀴를 돌린다. 주문을 받고, 신규 고객을 모으며, 운영 업무의 상태를 모니터링하며 불만사항을 기록한다. 반면, DW/BI 시스템 사용자는 실적을 평가하기 위해 조직의 수레바퀴가 잘 돌아가는지 살펴본다. 신규 주문을 집계, 지난주 실적과 비교, 신규 고객의 가입 사유와 고객 불만사항을 체크한다. 게다가, DW/BI 시스템은 고성능 쿼리에 최적화되어 있어 수백만 건의 트랜잭션을 검색해서 하나의 집합으로 압축된 답..

[자격증] [단답형]빅데이터 분석 기사 실기 실제 후기 2회, 3회차

안녕하세요! 빅데이터 분석기사 실기 실제 응시 후 느꼈던 것과 중요한 것이라고 생각되는 것을 작성하겠습니다. 단답형 단답형은 필기 준비했던 개념 위주로 공부하였습니다. 실제 코딩과는 크게 상관없는 부분들이 많이 나왔습니다. 기본 개념을 잘 숙지하신다면, 다들 단답형은 고득점을 받을 수 있을겁니다. 실제 2회, 3회 크게 어려우지 않았습니다. 딱 보면, 바로 답이 나오는 문제가 많으니 부담느끼지 않아도 됩니다.(그렇다고 손놓지는 마세요..ㅎ) 단답형 걱정되시는 분.. 필기 공부하실때, 정말 중요한 개념들 위주로 공부하면 좋을것같아요. 특히, ~의 종류 중 하나를 가져와 빈칸에 들어갈 말, 혹은 정의 등 나올만한 개념들 있잖아요. 또한, 너무 심화적인거나 지엽적인 문제보다는 중요한 keyword 중심으로, ..

하이퍼파라미터 튜닝 / grid search

하이퍼 파라미터란 모델 정의시 사람이 직접 지정 해주는 값 Grid Search Grid Search란 하이퍼 파라미터로 지정할 수 있는 값들을 순차적으로 입력한뒤 가장 높은 성능을 보이는 하이퍼 파라미터를 찾는 탐색 방법입니다. 예를 들어 Grid Search 를 통해 모델 깊이와 모델 넓이 라는 두개의 하이퍼 파라미터를 튜닝 한다고 가정해봅시다. 우선, 하이퍼 파라미터로 지정할 값들을 다음과 같이 설정해 줍니다. 모델 깊이 = [1, 2, 3] , 모델 넓이 = [a, b] 모델 깊이는 1 ,2, 3 중 하나의 값이고, 모델 넓이는 a, b 중 하나의 값으로 지정 하고자 합니다. grid search를 이용한다면 다음 순서대로 하이퍼 파라미터를 지정해 학습과 검증을 거치며, 그중 성능이 가장 높은 하..

파라미터/하이퍼파라미터

파라미터(Parameter, 매개변수) 파라미터(parameter, 매개변수)는 학습 과정에서 생성되는 변수들입니다. 예를 들어 한 학년에 속해 있는 학생들의 키에 대한 정규분포를 그린다고 하면, 평균과 표준편차가 계산 될 것입니다. 여기서 평균과 표준편차가 파라미터(Parameter, 매개변수) 입니다. 파라미터는 데이터를 통해 구해지며, 모델 내부적으로 결정되는 값입니다. 사용자가 임의로 설정하는 값이 아닙니다. LGBM 모델과 딥러닝 모델의 학습 가중치들이 파라미터에 해당됩니다. 하이퍼 파라미터(Hyper parameter) 하이퍼 파라미터는 모델링할 때 사용자가 직접 세팅해주는 값을 뜻합니다. learning rate나 트리 기반 모델의 트리의 최대 깊이, 최소 노드 갯수 등 굉장히 많습니다. 머..

train_test_split / LGBM (2)

Light GBM 모델을 선언 이후 학습을 위해서는 fit() 메소드를 사용합니다. fit () 메소드 내부에 있는 eval_metric 파라미터와, verbose 파라미터를 이용하면 평가 산식을 원하는 산식으로 설정하고, 모델이 학습과 검증을 진행하며 그 과정을 출력 할 수 있습니다. eval_metric = "원하는 평가산식" 을 넣어주시면 학습을 진행하며 지정해주신 평가 산식과 검증 데이터 셋을 이용해 결과 값을 출력해줍니다. 또한 verbose = "10" 과 같이 파라미터를 지정해주면 n_estimators를 기준으로 10번 마다 결과 값을 출력 하게 됩니다. # LightGBM을 이용해 학습 및 검증 진행 from lightgbm import LGBMRegressor model = LGBMRe..

300x250
300x250