Stata에서 결측치 찾기: 실무형 미니 가이드
잡학다식의 지식공방

빅데이터 관련 자료

Stata에서 결측치 찾기: 실무형 미니 가이드

carpe08 2025. 4. 21. 09:46
320x100

데이터 분석의 첫걸음은 깨끗한 데이터를 확보하는 일입니다. 그중에서도 결측치(missing value)를 파악하고 처리하는 과정은 필수입니다. Stata에서는 몇 가지 간단한 명령어만으로도 결측치를 탐색하고 시각화할 수 있습니다. 이 글에서는 자주 쓰이는 명령어와 실무 팁을 깔끔하게 정리했습니다.


1. Stata란?

Stata는 통계 분석, 데이터 관리, 그래픽 기능을 하나로 묶은 상용 소프트웨어입니다. 명령어 기반 CLI와 GUI를 모두 지원하며 경제학·사회과학·보건의료 등 다양한 분야 연구자들이 널리 사용합니다.

2. 결측치란?

값이 기록되어야 하지만 비어 있는 상태를 의미합니다. 설문 무응답, 센서 오류, 입력 실수 등 다양한 이유로 발생하며, 그대로 두면 분석 결과를 왜곡할 수 있습니다.

3. 결측치 확인 Quick Start

// 변수 요약 + 결측치 개수 확인
describe varlist
summarize varlist, detail

// 데이터셋 전체 결측치 요약
misstable summarize

// 변수·관측치별 패턴 확인
misstable patterns

missing 열이 0이 아니면 해당 변수에 결측치가 존재합니다.

4. 유용한 명령어와 함수

  • tabmiss (SSC 설치): 범주형 변수 결측 비율을 표로 확인
  • ssc install tabmiss tabmiss sex income
  • missing() 함수: 결측 여부를 0/1로 반환해 인디케이터 변수 생성
  • gen price_miss = missing(price)

5. 결측치 처리 전략

삭제(drop)

  • 언제? 결측치가 적고 무작위로 발생할 때
  • 예시 코드
drop if missing(price, mpg)

대체(impute)

  • 언제? 결측치가 많거나 특정 패턴이 있을 때
  • 예시 코드 (다중 대체)
mi set mlong
mi register imputed price mpg
mi impute regress price mpg weight, add(5)

6. 시각화로 패턴 파악

결측치 분포를 한눈에 파악하려면 히트맵이 유용합니다.

ssc install missings, replace
missings heatplot

각 행은 관측치, 열은 변수를 나타내며, 색상으로 결측 여부를 표시합니다.

7. 실무 체크리스트. 실무 체크리스트

  1. 스크립트 상단에 결측치 체크 코드를 고정해 재현성을 확보한다.
  2. 결측치 처리 전·후 count로 행 수를 비교해 데이터 손실을 확인한다.
  3. 대체한 값은 mi 프레임워크나 별도 변수로 관리해 원본을 보존한다.

마무리

describe, summarize, misstable, missing()만 익혀도 대부분의 결측치 탐색은 해결됩니다. 깔끔한 데이터를 기반으로 신뢰할 수 있는 분석을 시작해 보세요!



https://link.coupang.com/a/cor39u

쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다 

 

320x100
320x100