AWS Athena를 사용할 때 데이터를 어떤 포맷으로 저장하느냐에 따라 쿼리 성능과 비용이 크게 달라집니다. 그중 가장 많이 비교되는 포맷이 바로 CSV와 Parquet입니다. 이번 글에서는 두 포맷의 차이점과, Athena 환경에서 어떤 포맷이 더 효율적인지 실무 중심으로 정리해보겠습니다.
✅ 기본 개념 비교
항목 | CSV | Parquet |
저장 방식 | 텍스트 기반 | 컬럼 기반 (Binary) |
용량 | 큼 | 작음 (최대 10배 압축 가능) |
스캔 효율 | 낮음 | 높음 (컬럼만 읽음) |
스키마 | 없음 | 명시적 스키마 포함 |
읽기 속도 | 느림 | 빠름 (특히 일부 컬럼만 SELECT 시) |
Athena 비용 | 상대적으로 높음 | 낮음 (스캔 데이터 감소) |
🧠 Athena에서 Parquet이 더 유리한 이유
- 컬럼 프루닝 가능
- Parquet은 컬럼 기반 저장이라 SELECT에 필요한 컬럼만 읽음 → 스캔 비용 감소
- 파일 사이즈 감소
- Gzip 또는 Snappy 압축 적용 시 CSV 대비 80~90% 저장 공간 절감
- 스키마 명시 가능
- Parquet은 스키마가 내부에 저장되어 있어, 컬럼 순서나 유무로 인한 에러가 적음
- 쿼리 속도 향상
- 특히 대용량 테이블에서 효율적으로 작동
🔧 변환 방법 예시 (CSV → Parquet)
CREATE TABLE parquet_logs
WITH (
format = 'PARQUET',
external_location = 's3://your-bucket/parquet_logs/'
) AS
SELECT * FROM csv_logs;
CTAS (CREATE TABLE AS SELECT)로 쉽게 변환 가능하며, Glue Crawler로도 자동 인식됩니다.
📘 AWS 관련 추천 책
그림과 작동 원리로 쉽게 이해하는AWS 구조와 서비스:AWS의 전체 구조와 기술이 한눈에 들어오는
쿠팡에서 그림과 작동 원리로 쉽게 이해하는AWS 구조와 서비스:AWS의 전체 구조와 기술이 한눈에 들어오는 아마존 웹 서비스 핵심 가이드 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른
www.coupang.com
그림으로 이해하는 AWS 구조와 기술:AWS 쉽고 재미있게 시작하자! - 프로그래밍 언어 | 쿠팡
쿠팡에서 그림으로 이해하는 AWS 구조와 기술:AWS 쉽고 재미있게 시작하자! 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 프로그래밍 언어 제품도 바로 쿠팡에서 확인할 수 있습니다.
www.coupang.com
AWS 교과서 - 학습자료/교구 | 쿠팡
쿠팡에서 AWS 교과서 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 학습자료/교구 제품도 바로 쿠팡에서 확인할 수 있습니다.
www.coupang.com
비전공자를 위한 AWS:클라우드 입문부터 자격증 취득까지 쉽게 배우는 AWS - 웹/네트워크 | 쿠팡
쿠팡에서 비전공자를 위한 AWS:클라우드 입문부터 자격증 취득까지 쉽게 배우는 AWS 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 웹/네트워크 제품도 바로 쿠팡에서 확인할 수 있습니
www.coupang.com
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
'빅데이터 관련 자료' 카테고리의 다른 글
AWS S3 제대로 쓰고 있나요? (2) | 2025.05.31 |
---|---|
Glue Crawler 제대로 쓰는 법: Athena 실무를 위한 테이블 자동 등록 가이드 (3) | 2025.05.29 |
Athena 쿼리 속도 10배 올리는 실전 최적화 전략 (2) | 2025.05.28 |
Athena와 Glue는 왜 Hive 구조를 따를까? 서버리스 SQL (3) | 2025.05.27 |
Hive란 무엇인가? 빅데이터를 위한 SQL 기반 데이터 웨어하우스 (2) | 2025.05.26 |