DW(Data Warehouse) 자주 쓰이는 용어 정리
Data Analyst

빅데이터 관련 자료

DW(Data Warehouse) 자주 쓰이는 용어 정리

carpe08 2022. 2. 22. 10:44
320x100
320x100

DW(Data Warehouse) 자주 쓰이는 용어 정리

  • Fact: 트랜잭션으로 발생하는 숫자의 측정 값 (Fact Table)
  • Measure: 측정 값
  • Demension: 기준 정보로 사용하며 5w1h 등의 정보를 설명 (Dimension Table)
  • Attribute: Dimension 테이블에서 기준 정보로 사용하는 속성 값
  • ETL: Extract → Transformation → Load 방식으로 데이터를 처리하는 전통적인 데이터 처리방법
  • ELT: Extract → Load → Transformation 방식으로 먼저 Raw Data를 저장소에 저장한 이후에 처리하는 데이터 처리방법
  • Star Schema: 정규화 모델 기법, Dimension 테이블에 다른 Dimension 테이블이 연결되지 않는 구조
  • Snowflake Schema: 정규화 모델 기법, 테이블에 또 다른 Dimension이 연결되는 구조
  • Outrigger Dimension: Snowflake 스키마 구조에서 Dimension이 또 다른 Dimension을 참조할 때에 두 번째 Dimension을 가리키는 용어
  • Normalization: 데이터의 중복 문제를 해결 및 무결성을 위한 모델링 기법
  • Denormalizeaion: 성능 상의 이유로 또는 활용에 따라서 정규화를 위배하는 방식이더라도 의도적으로 설계하는 기법
  • OLAP: 데이터를 여러 기준으로 분석할 수 있도록 지원하는 처리 방식
  • OLAP Cube: 레코드 형태가 아닌 셀 단위로 데이터를 관리하는 다차원 모델.
  • Slice & Dice: 다차원 큐브를 하나의 Dimension으로 잘라서 분석하는 것을 Slice 분석, 2개 이상의 Dimension으로 잘라서 분석하는 것을 Dice 분석이라고 지칭.
  • Grain: Fact 테이블의 하나의 레코드가 가리키는 비즈니스 의미. 한 Fact 테이블에 서로 다른 Grain은 존재하면 안 됩니다. (ex. 생산 Fact 테이블의 하나의 레코드는 하나의 제품이 생산되는데 발생하는 비용을 의미)
  • Granularity: Fact 테이블의 Grain 레벨을 의미. Granularity가 높으면 성능 상의 이점은 있지만 상세 데이터를 조회할 수 없는 단점
  • Dimensionality: 차원수. Dimension의 조합을 의미합니다. 서로 다른 Fact 테이블의 Dimensionality가 동일하면 하나의 Fact 테이블로 조합이 가능
  • Conformed Dimension: 표준 Dimension. 여러 Fact 테이블에서 공통으로 사용하는 Dimension
  • Ad-hoc: 비 정기적. 임의의. 비 정형 쿼리.
  • Atomic: 트랜잭션 data 단위의 가장 낮은 단위.
  • Cardinality: 한 Column의 유일한 값들의 수
  • Natural Key: 원천 시스템에서 기본 키로 사용되는 키. Data Warehouse를 구축할 때에 실제로 이 Natural Key.
320x100
320x100