'Athena' 태그의 글 목록
잡학다식의 지식공방
300x250

Athena 7

ALTER TABLE DROP PARTITION 파티션 메타데이터 삭제하기

AWS Athena, Hive, Glue Data Catalog를 활용하는 환경에서는 때때로 특정 파티션만 메타데이터에서 제거하고 싶을 때가 있습니다. 이럴 때 사용하는 명령이 바로 ALTER TABLE ... DROP PARTITION입니다.이번 글에서는 이 명령의 정확한 동작 원리, 주의사항, 실무 활용 팁까지 알아봅니다.✅ DROP PARTITION 명령이란?ALTER TABLE example_table DROP PARTITION (partition_date='2024-12-01');이 명령은 Glue Data Catalog(또는 Hive Metastore) 에서 특정 파티션 정보를 삭제합니다. 단, S3에 있는 실제 데이터 파일은 그대로 유지됩니다.🔍 언제 사용해야 하나요?특정 파티션의 스키마가..

MSCK REPAIR TABLE 완전 정복: 동작 원리와 실무 활용법

AWS Athena나 Hive 환경에서 자주 사용하는 명령 중 하나가 바로 MSCK REPAIR TABLE입니다.이 명령은 파티션이 누락되어 쿼리 결과가 제대로 나오지 않을 때 필수적인 역할을 합니다.이번 글에서는 이 명령이 어떻게 동작하는지, 어떤 조건에서 유용한지 자세히 알아보겠습니다.✅ MSCK REPAIR TABLE이란?MSCK는 "Metastore Check"의 줄임말입니다. Hive Metastore(또는 Glue Data Catalog)에 등록되지 않은 파티션들을 자동으로 찾아 등록해주는 명령입니다.기본 사용 예시:MSCK REPAIR TABLE example_table;이 명령은 테이블의 위치(S3 경로)를 기준으로 내부의 폴더 구조를 탐색합니다.Hive 형식(key=value)으로 된 폴..

Athena에서 HIVE_PARTITION_SCHEMA_MISMATCH 에러 해결하기

AWS Athena를 사용하다 보면 간혹 다음과 같은 에러 메시지를 접하게 됩니다:HIVE_PARTITION_SCHEMA_MISMATCH: You are trying to write into an existing partition in a table. The table schema has changed since the creation of the partition. Inserting rows into such partition is not supported.이번 글에서는 이 에러가 왜 발생하는지, 그리고 어떻게 해결할 수 있는지를 정리해보겠습니다.✅ 에러 원인 요약이 에러는 Athena 테이블 전체 스키마와 특정 파티션의 스키마가 서로 다를 때 발생합니다.Glue Data Catalog에서는 각 파티션..

Athena 1편: S3에서 SQL로 데이터 조회하기

AWS Athena는 S3에 저장된 데이터를 SQL로 바로 조회할 수 있는 서버리스 쿼리 서비스입니다. 인프라를 직접 구성할 필요 없이 빠르게 분석 작업을 시작할 수 있어, 로그 분석, BI 대시보드, 임시 쿼리에 자주 활용됩니다.Athena는 어떤 서비스인가요?서버리스: EC2나 RDS처럼 인스턴스를 띄우지 않아도 됩니다. 쿼리한 만큼만 비용을 지불합니다.SQL 인터페이스: 표준 SQL을 사용하므로 진입 장벽이 낮습니다.S3 기반: S3에 저장된 다양한 포맷(CSV, JSON, Parquet 등)의 데이터를 바로 조회할 수 있습니다.Athena 기본 아키텍처S3: 분석 대상 데이터가 저장된 장소Glue Data Catalog: 테이블 스키마를 저장하는 메타데이터 저장소 (Athena가 참조)Athena..

초보자들 이해하기 쉽게 AWS Amazon Athena 소개

Amazon Athena 란? S3에 저장된 데이터를 SQL로 분석을 하는 서비스 특징 - 서버리스 분석 서비스 - 표준 SQL을 사용하여 S3에 저장된 데이터를 손쉽게 분석이 가능하다. - JDBC / ODBC connector 지원한다. - 다양한 데이터 유형에 대해서 분석 수행이 가능하다. (Text, CSV, TSV, JSON, 웹 로그 등) - 실행한 쿼리에 대해서만 비용이 지불되며, 실패한 쿼리에 대해서는 요금이 청구되지 않는다. Athena 가 분석할 때 편리할 것 같은데 아테나보다 Redshift 가 더 적합한 경우는 언제일까? 두개 전부 SQL로 분석하시기 좋은데 Athena는 서버리스라서 데이터를 읽어서 처리할 때 사용한 만큼만 비용이 지불됩니다. 클러스터 운영 없이 비용이 저렴하고 사..

300x250
300x250