Parquet vs CSV: Athena에서 어떤 포맷이 더 유리할까?
잡학다식의 지식공방

빅데이터 관련 자료

Parquet vs CSV: Athena에서 어떤 포맷이 더 유리할까?

carpe08 2025. 5. 30. 15:28
320x100

AWS Athena를 사용할 때 데이터를 어떤 포맷으로 저장하느냐에 따라 쿼리 성능과 비용이 크게 달라집니다. 그중 가장 많이 비교되는 포맷이 바로 CSV와 Parquet입니다. 이번 글에서는 두 포맷의 차이점과, Athena 환경에서 어떤 포맷이 더 효율적인지 실무 중심으로 정리해보겠습니다.


✅ 기본 개념 비교

항목 CSV Parquet
저장 방식 텍스트 기반 컬럼 기반 (Binary)
용량 작음 (최대 10배 압축 가능)
스캔 효율 낮음 높음 (컬럼만 읽음)
스키마 없음 명시적 스키마 포함
읽기 속도 느림 빠름 (특히 일부 컬럼만 SELECT 시)
Athena 비용 상대적으로 높음 낮음 (스캔 데이터 감소)

🧠 Athena에서 Parquet이 더 유리한 이유

  1. 컬럼 프루닝 가능
    • Parquet은 컬럼 기반 저장이라 SELECT에 필요한 컬럼만 읽음 → 스캔 비용 감소
  2. 파일 사이즈 감소
    • Gzip 또는 Snappy 압축 적용 시 CSV 대비 80~90% 저장 공간 절감
  3. 스키마 명시 가능
    • Parquet은 스키마가 내부에 저장되어 있어, 컬럼 순서나 유무로 인한 에러가 적음
  4. 쿼리 속도 향상
    • 특히 대용량 테이블에서 효율적으로 작동

🔧 변환 방법 예시 (CSV → Parquet)

CREATE TABLE parquet_logs
WITH (
  format = 'PARQUET',
  external_location = 's3://your-bucket/parquet_logs/'
) AS
SELECT * FROM csv_logs;

CTAS (CREATE TABLE AS SELECT)로 쉽게 변환 가능하며, Glue Crawler로도 자동 인식됩니다.


📘 AWS 관련 추천 책

 

그림과 작동 원리로 쉽게 이해하는AWS 구조와 서비스:AWS의 전체 구조와 기술이 한눈에 들어오는

쿠팡에서 그림과 작동 원리로 쉽게 이해하는AWS 구조와 서비스:AWS의 전체 구조와 기술이 한눈에 들어오는 아마존 웹 서비스 핵심 가이드 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른

www.coupang.com

 

 

그림으로 이해하는 AWS 구조와 기술:AWS 쉽고 재미있게 시작하자! - 프로그래밍 언어 | 쿠팡

쿠팡에서 그림으로 이해하는 AWS 구조와 기술:AWS 쉽고 재미있게 시작하자! 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 프로그래밍 언어 제품도 바로 쿠팡에서 확인할 수 있습니다.

www.coupang.com

 

 

AWS 교과서 - 학습자료/교구 | 쿠팡

쿠팡에서 AWS 교과서 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 학습자료/교구 제품도 바로 쿠팡에서 확인할 수 있습니다.

www.coupang.com

 

 

비전공자를 위한 AWS:클라우드 입문부터 자격증 취득까지 쉽게 배우는 AWS - 웹/네트워크 | 쿠팡

쿠팡에서 비전공자를 위한 AWS:클라우드 입문부터 자격증 취득까지 쉽게 배우는 AWS 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 웹/네트워크 제품도 바로 쿠팡에서 확인할 수 있습니

www.coupang.com


 

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

320x100
320x100