320x100
320x100
행지향 데이터베이스
행 기반 저장방식: A1 B1 C1 A2 B2 C2 A3 B3 C3
보통 데이터베이스(Oracle, MYSQL)는 레코드 단위로 읽고 쓰기에 최적화 되어있다. 테이블의 각 행을 하나의 덩어리로 디스크로 저장한다. 새 레코드를 추가할때는 파일 밑에 데이터를 넣기 때문에 추가하는 속도가 빠르다. 또한, 인덱스를 통해 검색을 빠르게 할 수 있다. 인덱스가 없으면 저장된 모든 데이터를 로드하여 원하는 레코드를 찾을 수 있어서 디스크 IO가 발생하기 떄문이다. 데이터 분석에서는 어떠한 컬럼이 사용되는 미리 알 수 없기때문에 인덱스로 통해 검색 속도를 향상시키는데 도움이 크게 되지 않는다.
열지향 데이터베이스
컬럼 기반 저장방식: A1 A2 A3 B1 B2 B3 C1 C2 C3
AWS Redshift는 컬럼단위로 집계에 최적화되어 있다. 테이블의 컬럼별로 데이터를 보관하기 때문에 저장하는데 시간이 많이 걸리지만, 미리 압축시켜두게 됨으로 필요한 칼럼만 빠르게 읽어 디스크 IO를 줄일 수 있다.
320x100
320x100
'빅데이터 관련 자료' 카테고리의 다른 글
쉽게 접근하자! IT 용어 정리 - 연관 분석, 장바구니 분석, Association Analysis (2) | 2022.09.01 |
---|---|
쉽게 접근하자! 직장인 용어 정리 - Workaround (0) | 2022.08.25 |
쉽게 접근하자! IT 용어 정리 - 파케이 형식 parquet (0) | 2022.07.02 |
쉽게 접근하자! IT 용어 정리 - API 개념 예시 설명 (0) | 2022.07.01 |
쉽게 접근하자! IT 용어 정리 - 앤드포인트, Endpoint (0) | 2022.06.30 |