기초 통계: 데이터 분석의 시작점
Data Analyst

빅데이터 관련 자료

기초 통계: 데이터 분석의 시작점

carpe08 2025. 1. 8. 16:38
320x100
320x100

통계는 데이터 분석의 기초이자 핵심 도구입니다. 데이터를 이해하고 의사결정을 내리는 데 필수적인 여러 기초 개념들을 알아보겠습니다. 이 글에서는 통계의 기본 개념과 대표적인 기초 통계 지표들을 소개하고, 이를 실무에 어떻게 활용할 수 있는지 살펴보겠습니다.


1. 통계란 무엇인가?

통계(Statistics)는 데이터를 수집, 분석, 해석, 표현하는 학문입니다. 이를 통해 복잡한 데이터를 요약하고, 데이터를 기반으로 결론을 도출하거나 미래를 예측할 수 있습니다.

통계는 크게 두 가지로 나뉩니다:

  1. 기술통계(Descriptive Statistics): 데이터를 요약하고 설명.
    • 예: 평균, 중앙값, 분산 등.
  2. 추론통계(Inferential Statistics): 표본 데이터를 기반으로 모집단의 특성을 추정.
    • 예: 가설 검정, 신뢰 구간.

2. 기초 통계 지표

1) 중심 경향성 지표

데이터의 중심 위치를 나타내는 지표입니다.

  • 평균(Mean): 데이터를 모두 더한 후 관측값의 개수로 나눈 값. 예: [10, 20, 30]의 평균은 .
  • 중앙값(Median): 데이터를 크기순으로 정렬했을 때, 중앙에 위치한 값.
    • 예: [10, 20, 30]의 중앙값은 20.
    • 데이터가 짝수개라면 중간 두 값의 평균.
  • 최빈값(Mode): 가장 자주 나타나는 값.
    • 예: [10, 10, 20, 30]의 최빈값은 10.

2) 산포도 지표

데이터가 얼마나 흩어져 있는지를 나타내는 지표입니다.

  • 범위(Range): 최대값과 최소값의 차이.
    • 예: [10, 20, 30]의 범위는 .
  • 분산(Variance): 각 데이터와 평균 간의 거리(편차)를 제곱하여 평균낸 값.
  • 표준편차(Standard Deviation): 분산의 제곱근으로, 데이터의 흩어진 정도를 나타냅니다.

3) 데이터 분포

데이터의 전체적인 패턴을 이해하기 위해 사용합니다.

  • 왜도(Skewness): 데이터 분포의 비대칭성을 측정합니다.
    • 양수: 꼬리가 오른쪽으로 길다.
    • 음수: 꼬리가 왼쪽으로 길다.
  • 첨도(Kurtosis): 데이터 분포의 뾰족한 정도를 나타냅니다.
    • 양수: 뾰족한 분포.
    • 음수: 평평한 분포.

3. 기초 통계의 실무 활용

1) 데이터 요약

  • 고객의 평균 구매 금액, 방문 빈도 등을 계산하여 전체적인 경향성을 파악.
  • 매출 데이터를 분석하여 가장 많은 구매를 발생시키는 제품 파악 (최빈값).

2) 품질 관리

  • 제조 공정에서 제품의 품질을 측정할 때, 표준편차를 활용하여 일관성을 평가.

3) 이상치 탐지

  • 평균과 표준편차를 활용해 정상 범위에서 벗어난 데이터를 탐지. 예: 특정 거래 금액이 평균보다 3표준편차 이상 높은 경우 이상 거래로 판단.

4) 보고서 작성

  • 데이터를 그래프와 함께 기술통계 지표로 요약하여 이해하기 쉽게 전달. 예: 평균, 중앙값, 표준편차를 시각화하여 트렌드를 설명.

4. Python으로 기초 통계 분석하기

import numpy as np
import pandas as pd

# 데이터 생성
data = [10, 20, 20, 30, 40]

# 기술통계 계산
mean = np.mean(data)
median = np.median(data)
mode = pd.Series(data).mode()[0]
std_dev = np.std(data)

print(f"평균: {mean}, 중앙값: {median}, 최빈값: {mode}, 표준편차: {std_dev}")

5. 결론

기초 통계는 데이터를 탐색하고 요약하는 데 핵심적인 역할을 합니다. 평균, 중앙값, 표준편차와 같은 지표를 활용하면 데이터를 보다 명확하게 이해하고, 데이터 기반 의사결정을 내릴 수 있습니다. 통계의 기본 개념을 잘 이해한다면 데이터 분석의 시작점에서부터 더 나은 인사이트를 얻을 수 있습니다.

320x100
320x100