'빅데이터 관련 자료/Python' 카테고리의 글 목록 (2 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료/Python 25

금융 데이터, 주식 관련 데이터 분석, 네이버 금융 개별종목 수집

네이버 금융 개별종목 수집 FinanceDataReader를 통해 수집했던 데이터를 네이버 증권 웹 페이지를 통해 직접 수집합니다. Keyword html 파일 읽어오기 pd.read_html(url, encoding="cp949") 결측 데이터 제거하기(axis 0:행, 1:열) table[0].dropna() 데이터 프레임 합치기 pd.concat([df1, df2, df3]) 중복데이터 제거 df.drop_duplicates() 과학적 기수법 1.210000e+02 => 121 날짜 column의 첫 row값 확인 date = df.iloc[0]["날짜"] 파일로 저장하기 df.to_csv(file_name, index=False) 파일 읽어오기 pd.read_csv(file_name) 수집할 페이..

FinanceDataReader 파이썬 실습 - 2

라이브러리 불러오기 import pandas as pd import FinanceDataReader as fdr 개별 종목의 일별 시세 수집 종목코드로 수집이 가능합니다. 종목명을 찾아서 일별 시세를 수집해 주는 함수를 만들어 볼 예정입니다. - fdr.DataReader("종목코드", "하위 연도" , "상위 연도" ) df=fdr.DataReader("005930","2017","2022") df # 종가 시각화 하기 df["Close"].plot() 상장종목 목록 가져오기 df_krx=pd.read_csv("krx.csv") df_krx 상장종목 목록 사용하기 종목명과 심볼을 찾기 위해 상장종목 목록을 사용합니다. df_krx.head()​ 종목명으로 종목 코드를 받아오는 함수 만들기 def ite..

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (4)

Concat 으로 데이터 합치기 df_first_prepare 와 df_last_prepare 를 합쳐줍니다. df=pd.concat([df_first_prepare,df_last_prepare]) df.shape #(1224, 4) 제대로 합쳐졌는지 미리보기를 합니다. df.head() 연도별로 데이터가 몇개씩 있는지 value_counts를 통해 세어봅니다. df["연도"].value_counts() pivot_table 사용하기 연도를 인덱스로, 지역명을 컬럼으로 평당분양가격을 피봇테이블로 그려봅니다. k=pd.pivot_table(data=df,index="연도",columns="지역명",values="평당분양가격") k 한 열에 대해서 시각화 k.astype(int).style.backgroun..

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (3)

이상치 보기 서울의 평당분양가격이 특히 높은 데이터가 있습니다. 해당 데이터를 가져옵니다. df_last[df_last["평당분양가격"]>40000] 수치 데이터 히스토그램 그리기 df_last.hist(figsize=(10,6)) pairplot 그리기 sns.pairplot(data=df_last,hue="지역명") #hue를 안넣으면 히스토그램으로 작성됨 melt로 Tidy data 만들기 pandas의 melt를 사용하면 데이터의 형태를 변경할 수 있습니다. df_first 변수에 담긴 데이터프레임은 df_last에 담겨있는 데이터프레임의 모습과 다릅니다. 같은 형태로 만들어주어야 데이터를 합칠 수 있습니다. 데이터를 병합하기 위해 melt를 사용해 열에 있는 데이터를 행으로 녹여봅니다. df_f..

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (2)

pivot table로 데이터 집계하기 - group by로 작업했던 것을 pivot table로 똑같이 해봅니다. df_last.pivot_table(index='지역명',values='평당분양가격') 전용면적당 평당분양가격 평균 df_last.groupby(["전용면적"])["평당분양가격"].mean() 전용면적을 index 로 평당분양가격 을 values 로 구합니다. df_last.pivot_table(index="전용면적",values="평당분양가격") 지역명, 전용면적으로 평당분양가격의 평균을 구합니다. df_last.pivot_table(index="전용면적",columns="지역명",values="평당분양가격").astype(int) 연도, 지역명으로 평당분양가격의 평균을 구합니다. df_..

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (1)

다루는 내용 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 데이터셋 다운로드 위치 : https://www.data.go.kr/dataset/3035522/fileData.do 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 파이썬에서 쓸 수 있는 엑셀과도 유사한 판다스 라이브러리를 불러옵니다. import pandas as pd import numpy as np import mat..

파이썬 기초용어 정리 - 제어문, 입출력 etc

제어문 if문 : if 이후의 조건들로 상황에 맞게 수행시키기 위한 제어문 while문 : 반복해서 문장을 수행해야할 경우 사용되는 반복문 for문: while문과 비슷한 반복문이지만 문장 구조의 이해가 용이하다. 입출력 함수(function) : 특정 행위를 필요할 때 반복적으로 수행해야하는 경우 공통된 부분을 하나의 코드로 대변되게 만드는 과정으로 python에서는 def라는 형식으로 시작한다. 매개변수(parameter) : 함수에 입력으로 전달된 값을 받는 변수 인수(argument) : 함수를 호출할 때 전달되는 입력값 람다(lambda) : 함수를 생성할 때 사용되는 예약어로 def와 동일한 역할을 하며 일반적으로 함수를 한줄로 간결하게 만들 때 사용된다. input : 사용자가 입력한 값을 ..

Python 기초 용어 정리 - 자료형

숫자형(Number) : 숫자 형태로 이루어진 자료형 문자열(String) : 문자, 단어 등으로 구성된 문자들의 집합을 관리하는 자료형 리스트(list) : 여러개의 자료를 하나의 변수로 관리할 때 사용하는 자료형 튜플(tuple) : 여러개의 자료를 하나의 변수로 관리할 때 사용되는 면에서는 list와 거의 같지만 데이터를 변경할 수 없는 자료형 딕셔너리(dictionary) : 여러개의 자료를 하나의 변수로 관리하는 측면은 list나 tuple과 비슷하지만 key와 value로 이루어져 있고 순차적인 요소값으로 관리되지 않고 key값을 통해 value를 구하는 자료형 집합(set) : 중복이 허용되지 않고, 순서가 없는, 집합에 관련된 것을 쉽게 처리하기 위한 자료형으로 순서가 없기때문에 자료에 접..

파이썬 기초 - 6

필요한 라이브러리 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 필요한 데이터셋 불러오기 df=sns.load_dataset("mpg") df.shape # (398,9) 데이터셋 일부만 가져오기 df.head() 데이터 요약하기 df.info() 결측치 보기 df.isnull().sum() 기술 통계 보기 df.describe() 범주형일 경우 include를 사용해 볼 수 있다. df.describe(include="object") 수치형 변수 보기 수치형 변수 mpg의 unique 값 보기 df.nunique() hist()를 통해 전체 수치변수에 대한 히스토그램을 그려본..

300x250
300x250