킴벌의 DW/BI 아키텍처
DW/BI 환경의 구성요소들을 보면서, DW/BI 시스템과 다차원 모델링의 기초를 알아보겠다. DW/BI 환경에는 고려해야 할 네가지 분리된 개별 구성요소가 있는데, 운영계 원천 시스템, ETL 시스템, 프레젠테이션 영역, BI 애플리케이션이다.
운영계 원천 시스템
비즈니스 트랜잭션을 포착하여 기록하는 운영 시스템들이 있다. 운영 시스템의 데이터 내용과 형식을 거의 또는 전혀 제어할 수 없기 때문에 데이터 웨어하우스 외부영역으로 생각할 것이다. 원천 시스템의 중요한 우선순위는 처리 성능과 가용성이다. 원천 시스템에 대한 운영 쿼리들은 정상적인 트랜잭션 흐름에서 1회 1레코드 쿼리이며, 운영시스템에서 엄격히 제한된다. 원천 시스템은 과거 데이터를 거의 유지하지 않는다. 좋은 데이터 웨어하우스는 과거를 웨어하우스는 과거를 보여주어야 하는 원천 시스템의 많은 책임을 경감시켜준다.
소스 트랜잭션 <----------------백 룸-----------------><-------------------------프런트 룸----------------------------->
운영계 원천 --------------> ETL 시스템----------------------> 프레젠테이션 영역 <--------------BI 애플리케이션------------
- ETL 시스템: 소스에서 타깃으로 변환, 디멘션을 표준화, 선택적 정규화, 사용자 쿼리는 미지원
설계 목표: 처리량, 무결성 및 일관성
- 프레젠테이션 영역: 차원적(스타 스키마 또는 OLAP 큐브), 상세 또는 요약 데이터, 비즈니스 프로세스별 구조화, 표준 디멘션 사용
설계 목표: 사용 편이성, 쿼리 성능
- BI 애플리케이션: 임의 쿼리, 표준 리포트, 분석 애플리케이션, 데이터 마이닝 및 모델
추출, 변환 및 적재 시스템
DW/BI 환경에서 추출, 변환, 적재 시스템은 작업 영역, 데이터 구조, 프로세스 집합으로 구성된다. ETL 시스템은 운영계 원천 시스템과 DW/BI 프리젠테이션 영역 사이의 모든 것이다. 추출은 데이터 웨어하우스 환경에서 데이터를 가져오는 첫 번째 과정이다. 추출은 원천 데이터를 읽고 이해하며, 추가적인 데이터 가공을 위해 ETL 시스템 속으로 필요한 데이터를 복사하는 것을 의미한다. ETL 시스템으로의 데이터 추출이 끝나면 데이터를 정제하고 다중 원천으로부터 데이터를 합치고, 중복을 제거하는 등의 변환 작업을 한다. ETL 시스템은 데이터를 변경 및 개선하는 이런 정제와 표준화 작업을 통해 데이터의 가치를 증대시킨다. 이런 활동들은 진단을 위한 메타 데이터를 생서아도록 설계되어 결과적으로 원천 시스템의 데이터 품질을 장기적으로 향상시킬 수 있는 BPR을 이끌어낼 수 있다. ETL 프로세스의 과정은 최종목표인 프레젠테이션 영역의 다차원 모델에 데이터를 적재하고 물리적으로 구성하는 것이다. ETL 시스템의 주요 임무는 디멘션과 팩트 테이블에 데이터를 담아주는 것이기 때문에 적재 관련 서브시스템들은 매우 중요하다. ETL 시스템은 일반적으로 정렬과 순차 처리 등 단순한 작업을 수행한다. ETL 시스템은 관계형 기술이 아니라 파일 시스템에 의존하기도 한다.
DW/BI 시스템의 프레젠테이션 영역에서 쿼리할 수 있는 데이터는 다차원적이고, 최소단위이며, 비즈니스 프로세스 중심적이고, 전사 데이터 웨어하우스버스 아키텍처를 고수해야한다. 데이터는 개별 부서의 해석에 따라 구성되어서는 안된다. 잘 설계된 DW/BI 환경은 전방의 BI 애플리케이션에서 작업이 이루어지기보다 후방의 ETL 시스템에서 작업이 이루어지는 것을 선호한다. 전방의 작업은 비즈니스 사용자에 의해 반복적으로 수행되지만, 후방의 작업은 ETL 전문가에 의해 한 번만 수행되면 된다.
'빅데이터 관련 자료' 카테고리의 다른 글
DW(Data Warehouse) 자주 쓰이는 용어 정리 (0) | 2022.02.22 |
---|---|
Data Pipeline (0) | 2022.02.18 |
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 3 (0) | 2021.12.30 |
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 2 (0) | 2021.12.29 |
데이터 웨어하우징, 비즈니스 인텔리전스 및 다차원 모델링 입문 - 1 (0) | 2021.12.28 |