'빅데이터 관련 자료' 카테고리의 글 목록 (13 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 선택자 - 2, id 와 class

id 와 class 태그의 선택자는 보통 id와 class를 사용합니다. 각각 언제 사용하는지 소개하겠습니다. id 어떤 웹 사이트에 회원가입을 할 때, 그 웹 사이트에서 특정 유저만 사용하는 아이디만 생성합니다. 주민등록번호, 학번 등과 같이 id는 특정 요소만 가질 수 있는 고유한 값입니다. HTML에서는 하나의 id가 고유한 선택자로, 하나의 HTML 코드에 id는 중복되지 않고 하나만 존재합니다. class 태그의 선택자로 사용되지만 id처럼 고유한 값은 아닙니다. class는 같은 속성을 지닌 데이터들을 묶어주는 값으로 class는 여러 번 사용이 가능합니다. 예제 표1. 이름 학번 직업 사용하는 언어 이서 2016121212 데이터 분석가 파이썬, R 혁준 2017123012 웹 개발자 자바,..

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 선택자 - 1

선택자 웹 페이지를 표현하는 데이터 모두가 태그로 구성되어 있어 서로 동일한 태그가 존재할 것입니다. 이렇게 동일한 태그들은 분간을 하기 위해 HTML에서는 선택자를 사용합니다. 각 태그를 구별할 수 있는 주소를 부여 해줍니다. 선택자 필요성 파이썬 apply java split 해당 웹 페이지에서 언어와 관련된 데이터만 필요하다고 한다고 가정해보겠습니다. 만약 태그로만 해당 데이터를 선택한다면 태그 을 사용할 것입니다. 하지만 태그 에 언어 정보뿐 아니라 함수정보(apply, split)도 포함됩니다. 이러한 경우에 선택자를 사용합니다. 파이썬 apply java split class='language' 선택자를 추가해 준다면, 우리는 span 태그와 language 라는 선택자를 사용해 언어 관련 데..

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 웹페이지와 HTML

크롤링을 하기 전엔 웹 페이지에 대해 알아야 합니다. 웹 페이지는 HTML을 기반으로 되어있습니다. HTML은 HyperText Markup Language로 마크로 둘러쌓인 언어라는 뜻입니다. 즉, 웹 페이지를 만들 때 쓰는 언어입니다. 페이지에서 F12 버튼을 클릭한다면, 개발자 도구 창을 볼 수 있습니다. 이 코드들이 바로 HTML입니다. HTML이라는 문서를 통해 우리는 웹페이지의 구조를 파악할 수 있고, 이를 이용하여 원하는 데이터가 웹 페이지의 어디에 위치해 있는지 파악하여 수집하는 것이 크롤링의 핵심입니다. HTML 태그 HTML에 있는 각각의 구성 요소는 마크의 역할을 하는 '태그'로 감싸져 있습니다. 내용 시작과 끝이 하나의 쌍으로 구성되어 있고, 그 사이에 내용이 포함됩니다. HTML ..

(이해하기 쉽게 설명) HTML 기초, 라이브러리와 크롤링 준비

크롤링하기 위해서는 라이브러리를 사용해야 합니다. 라이브러리는 프로그래밍을 할 때, 코드를 작성하지 않고 필요한 기능을 수행할 수 있도록 마련된 함수와 메소드의 집합입니다. 파이썬의 환경이 방대한 만큼, 수십, 수백만 개의 라이브러리가 존재합니다. 하지만, 모든 라이브러리를 알 필요도 없습니다. 어떠한 기능을 구현할 때, 어떤 라이브러리를 사용해야 한다는 정도만 알면 됩니다. 정적 크롤링 정적 크롤링을 할 때, 파이썬의 두 가지 라이브러리를 사용합니다. 하나는 requests, 하나의 Beautifulsoup4입니다. requests requests 라이브러리는 기존에 어려운 HTTP 요청을 쉽게 사용하기 위해 만들어진 라이브러리입니다. 쉽게 말해, 파이썬과 웹을 연경하기 위해 사용 하는 것입니다. 아래..

크롤링은 종류

어떤 데이터를 크롤링하는가? 에 따라 크게 정적크롤링과 동적크롤링으로 나뉩니다. 정적 크롤링 정적 크롤링은 로그인과 같은 사전 작업 없이, 한 페이지 내부에서 원하는 데이터를 수집할 때 사용합니다. 동영상 스트리밍 사이트의 인기 동영상과 같은 경우라고 생각하면 됩니다. 정적 크롤링은 주소를 통해 데이터를 요청하고, 결과를 받는 것으로 크롤링이 종료됩니다. 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠릅니다. 하지만 주소를 통해 데이터를 받습니다. 로그인 -> 페이지 이동 -> 클릭 -> 데이터 수집와 같은 연속적인 작업을 수행할 수 없습니다. 따라서 페이지의 변화가 조금이라도 필요한 경우에는 적용이 힘들기 때문에 수집 대상에 한계가 있다는 단점이 있습니다. 동적 크롤링 동적 크롤링은 정..

크롤링(Crawling)이란?

크롤링(Crawling) 보통 크롤링은 단순히 데이터 수집이라고 알고 있습니다. 넓은 의미로, 의미를 알아보겠습니다. 크롤링(Crawling)이란 인터넷에서 데이터를 검색하여 필요한 정보를 색인하는 것을 의미합니다. 사용자가 데이터를 하나씩 검색을 하여 정보를 수집하고, 저장, 가공하는 과정을 대신 해주는 기술입니다. 쉽게 정리하면, 크롤링은 인터넷상의 데이터를 수집, 저장, 가공하는 자동화된 기술이라고 할 수 있다. 크롤링의 중요성 크롤링은 업무 자동화로 인한 업무 효율화가 가장 큰 몫을 차지합니다. 반복적인 필요한 업무를 컴퓨터가 저희 대신하는 것입니다. 10개 정도의 정보는 복사-붙여넣기를 사용해 단순히 해결할 수 있지만, 1000개, 10000개라면, 그 정보를 수집하는데 시간이 많이 걸릴 것입니..

데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 4

킴벌의 DW/BI 아키텍처 DW/BI 환경의 구성요소들을 보면서, DW/BI 시스템과 다차원 모델링의 기초를 알아보겠다. DW/BI 환경에는 고려해야 할 네가지 분리된 개별 구성요소가 있는데, 운영계 원천 시스템, ETL 시스템, 프레젠테이션 영역, BI 애플리케이션이다. 운영계 원천 시스템 비즈니스 트랜잭션을 포착하여 기록하는 운영 시스템들이 있다. 운영 시스템의 데이터 내용과 형식을 거의 또는 전혀 제어할 수 없기 때문에 데이터 웨어하우스 외부영역으로 생각할 것이다. 원천 시스템의 중요한 우선순위는 처리 성능과 가용성이다. 원천 시스템에 대한 운영 쿼리들은 정상적인 트랜잭션 흐름에서 1회 1레코드 쿼리이며, 운영시스템에서 엄격히 제한된다. 원천 시스템은 과거 데이터를 거의 유지하지 않는다. 좋은 데이..

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (4)

Concat 으로 데이터 합치기 df_first_prepare 와 df_last_prepare 를 합쳐줍니다. df=pd.concat([df_first_prepare,df_last_prepare]) df.shape #(1224, 4) 제대로 합쳐졌는지 미리보기를 합니다. df.head() 연도별로 데이터가 몇개씩 있는지 value_counts를 통해 세어봅니다. df["연도"].value_counts() pivot_table 사용하기 연도를 인덱스로, 지역명을 컬럼으로 평당분양가격을 피봇테이블로 그려봅니다. k=pd.pivot_table(data=df,index="연도",columns="지역명",values="평당분양가격") k 한 열에 대해서 시각화 k.astype(int).style.backgroun..

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (3)

이상치 보기 서울의 평당분양가격이 특히 높은 데이터가 있습니다. 해당 데이터를 가져옵니다. df_last[df_last["평당분양가격"]>40000] 수치 데이터 히스토그램 그리기 df_last.hist(figsize=(10,6)) pairplot 그리기 sns.pairplot(data=df_last,hue="지역명") #hue를 안넣으면 히스토그램으로 작성됨 melt로 Tidy data 만들기 pandas의 melt를 사용하면 데이터의 형태를 변경할 수 있습니다. df_first 변수에 담긴 데이터프레임은 df_last에 담겨있는 데이터프레임의 모습과 다릅니다. 같은 형태로 만들어주어야 데이터를 합칠 수 있습니다. 데이터를 병합하기 위해 melt를 사용해 열에 있는 데이터를 행으로 녹여봅니다. df_f..

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (2)

pivot table로 데이터 집계하기 - group by로 작업했던 것을 pivot table로 똑같이 해봅니다. df_last.pivot_table(index='지역명',values='평당분양가격') 전용면적당 평당분양가격 평균 df_last.groupby(["전용면적"])["평당분양가격"].mean() 전용면적을 index 로 평당분양가격 을 values 로 구합니다. df_last.pivot_table(index="전용면적",values="평당분양가격") 지역명, 전용면적으로 평당분양가격의 평균을 구합니다. df_last.pivot_table(index="전용면적",columns="지역명",values="평당분양가격").astype(int) 연도, 지역명으로 평당분양가격의 평균을 구합니다. df_..

300x250
300x250