데이터 분석에서 통계 분석은 데이터를 이해하고 모델링하는 핵심적인 단계입니다. 이번 글에서는 PySpark를 사용하여 데이터의 통계 분석 기법을 살펴보겠습니다. 1. 기초적인 통계량 계산 PySpark를 사용하여 데이터의 기초적인 통계량을 계산하는 방법을 알아봅니다. 평균, 중앙값, 표준편차 등의 통계량을 계산하는 방법을 DataFrame API를 통해 살펴볼 것입니다. from pyspark.sql.functions import mean, stddev, approx_count_distinct # 평균과 표준편차 계산 mean_val = df.select(mean('numeric_column')).collect()[0][0] stddev_val = df.select(stddev('numeric_colum..