320x100
320x100
Data Pipeline이란?
- Data Pipeline을 통해 언제 어디든 데이터를 편하게 접근하고 분석 가능
- Why, Where, How 데이터 수집 부터 출발
- 데이터를 한 지점에서 특정공간까지 가지고 오는데 장애물들이 있기 때문에 이걸 해결하는것이 핵심 key
- 데이터를 효과적으로 가져오는 것이 Data- Driven 기업의 숙제
- 수집 → 저장 → 처리 → 분석 → 시각화
- 데이터의 추출, 변경, 결합, 검증 그리고 적재의 과정을 자동화 하는 것
- 여러 소프트웨어적인 수동 작업들을 제거하고 데이터가 각 지점을 순조롭게 흐르도록 Flow를 만들어 주는 것
ETL와 다른 점?
- Data Pipeline은 ETL을 포함하는 광범위한 용어로 데이터를 한 시스템에서 또 다른 시스템으로 옮기는 작업
- ETL은 하나의 시스템에서 data를 추출하고, 변환하여 DB나 DW에 적재
- legacy ETL Pipeline은 보통 배치로 작동하고 큰 덩어리 data를 특정 시간에 한 공간에 저장하는 작업
Data Pipeline은 어떻게 만드는가?
- Apache Spark, Amazon S3 기반의 대용량 데이터 분석 파이프라인 생성
320x100
320x100
'빅데이터 관련 자료' 카테고리의 다른 글
초보자들 이해하기 쉽게 AWS Amazon Athena 소개 (0) | 2022.03.31 |
---|---|
DW(Data Warehouse) 자주 쓰이는 용어 정리 (0) | 2022.02.22 |
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 4 (0) | 2022.01.19 |
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 3 (0) | 2021.12.30 |
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 2 (0) | 2021.12.29 |