Data Pipeline
Data Analyst

빅데이터 관련 자료

Data Pipeline

carpe08 2022. 2. 18. 10:43
320x100
320x100

Data Pipeline이란?

  • Data Pipeline을 통해 언제 어디든 데이터를 편하게 접근하고 분석 가능
  • Why, Where, How 데이터 수집 부터 출발
  • 데이터를 한 지점에서 특정공간까지 가지고 오는데 장애물들이 있기 때문에 이걸 해결하는것이 핵심 key
  • 데이터를 효과적으로 가져오는 것이 Data- Driven 기업의 숙제
  • 수집 → 저장 → 처리 → 분석 → 시각화
  • 데이터의 추출, 변경, 결합, 검증 그리고 적재의 과정을 자동화 하는 것
  • 여러 소프트웨어적인 수동 작업들을 제거하고 데이터가 각 지점을 순조롭게 흐르도록 Flow를 만들어 주는 것

 

ETL와 다른 점?

  • Data Pipeline은 ETL을 포함하는 광범위한 용어로 데이터를 한 시스템에서 또 다른 시스템으로 옮기는 작업
  • ETL은 하나의 시스템에서 data를 추출하고, 변환하여 DB나 DW에 적재
  • legacy ETL Pipeline은 보통 배치로 작동하고 큰 덩어리 data를 특정 시간에 한 공간에 저장하는 작업

 

Data Pipeline은 어떻게 만드는가?

  • Apache Spark, Amazon S3 기반의 대용량 데이터 분석 파이프라인 생성
320x100
320x100