'빅데이터 관련 자료/Crawling' 카테고리의 글 목록

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 선택자 - 4, 실습

로또 번호 크롤링 url: https://dhlottery.co.kr/gameResult.do?method=byWin&wiselog=C_A_1_2 로또6/45 - 회차별 당첨번호 1000회 당첨결과 (2022년 01월 29일 추첨) 당첨번호 2 8 19 22 32 42 1000회 순위별 등위별 총 당첨금액, 당첨게임 수, 1게임당 당첨금액, 당첨기준, 비고 안내 순위 등위별 총 당첨금액 당첨게임 수 1게임 dhlottery.co.kr 당청번호와 보너스 숫자가 들어 있는 태그와 선택자를 찾으려고 합니다. 부분을 찾을 수 있고, 관심있는 부분의 태그는 'div' 이고, class는 'nums' 입니다. 태그의 위쪽으로 올라가면 id를 가진 태그를 찾을 수 있습니다. ... ... ... ... HTML은 태..

빅데이터 관련 자료/Crawling 2022.02.04

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 선택자 - 3, 선택자 사용법

만약 다음과 같은 태그를 사용한다고 해봅니다. 선택자에 따라 데이터 검색 방법에 차이가 있습니다. 데이터를 검색할 때, 태그 뒤에 id는 '#' 을 붙여야 도며, class는 '.' 을 붙여애 됩니다. 1. 태그만 사용하여 데이터를 찾을 경우 : 태그 2. 태그와 id를 사용하여 데이터를 찾을 경우 : 태그#id 3. 태그와 class를 사용하여 데이터를 찾을 경우 : 태그.class 4. 태그, id, class 모두 사용하여 데이터를 찾을 경우: 태그#id.class 다만 class의 이름에 공백이 포함될 경우가 있습니다. 공백을 '.'으로 대체해서 아래와 같이 작성하면 됩니다. div.I.Like.Apple 다음 글에서는 실습 해보겠습니다.

빅데이터 관련 자료/Crawling 2022.02.03

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 선택자 - 2, id 와 class

id 와 class 태그의 선택자는 보통 id와 class를 사용합니다. 각각 언제 사용하는지 소개하겠습니다. id 어떤 웹 사이트에 회원가입을 할 때, 그 웹 사이트에서 특정 유저만 사용하는 아이디만 생성합니다. 주민등록번호, 학번 등과 같이 id는 특정 요소만 가질 수 있는 고유한 값입니다. HTML에서는 하나의 id가 고유한 선택자로, 하나의 HTML 코드에 id는 중복되지 않고 하나만 존재합니다. class 태그의 선택자로 사용되지만 id처럼 고유한 값은 아닙니다. class는 같은 속성을 지닌 데이터들을 묶어주는 값으로 class는 여러 번 사용이 가능합니다. 예제 표1. 이름 학번 직업 사용하는 언어 이서 2016121212 데이터 분석가 파이썬, R 혁준 2017123012 웹 개발자 자바,..

빅데이터 관련 자료/Crawling 2022.02.02

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 선택자 - 1

선택자 웹 페이지를 표현하는 데이터 모두가 태그로 구성되어 있어 서로 동일한 태그가 존재할 것입니다. 이렇게 동일한 태그들은 분간을 하기 위해 HTML에서는 선택자를 사용합니다. 각 태그를 구별할 수 있는 주소를 부여 해줍니다. 선택자 필요성 파이썬 apply java split 해당 웹 페이지에서 언어와 관련된 데이터만 필요하다고 한다고 가정해보겠습니다. 만약 태그로만 해당 데이터를 선택한다면 태그 을 사용할 것입니다. 하지만 태그 에 언어 정보뿐 아니라 함수정보(apply, split)도 포함됩니다. 이러한 경우에 선택자를 사용합니다. 파이썬 apply java split class='language' 선택자를 추가해 준다면, 우리는 span 태그와 language 라는 선택자를 사용해 언어 관련 데..

빅데이터 관련 자료/Crawling 2022.02.01

(이해하기 쉽게 설명) HTML 기초, 파이썬 크롤링 웹페이지와 HTML

크롤링을 하기 전엔 웹 페이지에 대해 알아야 합니다. 웹 페이지는 HTML을 기반으로 되어있습니다. HTML은 HyperText Markup Language로 마크로 둘러쌓인 언어라는 뜻입니다. 즉, 웹 페이지를 만들 때 쓰는 언어입니다. 페이지에서 F12 버튼을 클릭한다면, 개발자 도구 창을 볼 수 있습니다. 이 코드들이 바로 HTML입니다. HTML이라는 문서를 통해 우리는 웹페이지의 구조를 파악할 수 있고, 이를 이용하여 원하는 데이터가 웹 페이지의 어디에 위치해 있는지 파악하여 수집하는 것이 크롤링의 핵심입니다. HTML 태그 HTML에 있는 각각의 구성 요소는 마크의 역할을 하는 '태그'로 감싸져 있습니다. 내용 시작과 끝이 하나의 쌍으로 구성되어 있고, 그 사이에 내용이 포함됩니다. HTML ..

빅데이터 관련 자료/Crawling 2022.01.30

(이해하기 쉽게 설명) HTML 기초, 라이브러리와 크롤링 준비

크롤링하기 위해서는 라이브러리를 사용해야 합니다. 라이브러리는 프로그래밍을 할 때, 코드를 작성하지 않고 필요한 기능을 수행할 수 있도록 마련된 함수와 메소드의 집합입니다. 파이썬의 환경이 방대한 만큼, 수십, 수백만 개의 라이브러리가 존재합니다. 하지만, 모든 라이브러리를 알 필요도 없습니다. 어떠한 기능을 구현할 때, 어떤 라이브러리를 사용해야 한다는 정도만 알면 됩니다. 정적 크롤링 정적 크롤링을 할 때, 파이썬의 두 가지 라이브러리를 사용합니다. 하나는 requests, 하나의 Beautifulsoup4입니다. requests requests 라이브러리는 기존에 어려운 HTTP 요청을 쉽게 사용하기 위해 만들어진 라이브러리입니다. 쉽게 말해, 파이썬과 웹을 연경하기 위해 사용 하는 것입니다. 아래..

빅데이터 관련 자료/Crawling 2022.01.29

크롤링은 종류

어떤 데이터를 크롤링하는가? 에 따라 크게 정적크롤링과 동적크롤링으로 나뉩니다. 정적 크롤링 정적 크롤링은 로그인과 같은 사전 작업 없이, 한 페이지 내부에서 원하는 데이터를 수집할 때 사용합니다. 동영상 스트리밍 사이트의 인기 동영상과 같은 경우라고 생각하면 됩니다. 정적 크롤링은 주소를 통해 데이터를 요청하고, 결과를 받는 것으로 크롤링이 종료됩니다. 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠릅니다. 하지만 주소를 통해 데이터를 받습니다. 로그인 -> 페이지 이동 -> 클릭 -> 데이터 수집와 같은 연속적인 작업을 수행할 수 없습니다. 따라서 페이지의 변화가 조금이라도 필요한 경우에는 적용이 힘들기 때문에 수집 대상에 한계가 있다는 단점이 있습니다. 동적 크롤링 동적 크롤링은 정..

빅데이터 관련 자료/Crawling 2022.01.23

크롤링(Crawling)이란?

크롤링(Crawling) 보통 크롤링은 단순히 데이터 수집이라고 알고 있습니다. 넓은 의미로, 의미를 알아보겠습니다. 크롤링(Crawling)이란 인터넷에서 데이터를 검색하여 필요한 정보를 색인하는 것을 의미합니다. 사용자가 데이터를 하나씩 검색을 하여 정보를 수집하고, 저장, 가공하는 과정을 대신 해주는 기술입니다. 쉽게 정리하면, 크롤링은 인터넷상의 데이터를 수집, 저장, 가공하는 자동화된 기술이라고 할 수 있다. 크롤링의 중요성 크롤링은 업무 자동화로 인한 업무 효율화가 가장 큰 몫을 차지합니다. 반복적인 필요한 업무를 컴퓨터가 저희 대신하는 것입니다. 10개 정도의 정보는 복사-붙여넣기를 사용해 단순히 해결할 수 있지만, 1000개, 10000개라면, 그 정보를 수집하는데 시간이 많이 걸릴 것입니..

빅데이터 관련 자료/Crawling 2022.01.22

이서

빅데이터 관련 자료/Crawling 8

티스토리툴바

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31