320x100
데이터 분석의 첫걸음은 깨끗한 데이터를 확보하는 일입니다. 그중에서도 결측치(missing value)를 파악하고 처리하는 과정은 필수입니다. Stata에서는 몇 가지 간단한 명령어만으로도 결측치를 탐색하고 시각화할 수 있습니다. 이 글에서는 자주 쓰이는 명령어와 실무 팁을 깔끔하게 정리했습니다.
1. Stata란?
Stata는 통계 분석, 데이터 관리, 그래픽 기능을 하나로 묶은 상용 소프트웨어입니다. 명령어 기반 CLI와 GUI를 모두 지원하며 경제학·사회과학·보건의료 등 다양한 분야 연구자들이 널리 사용합니다.
2. 결측치란?
값이 기록되어야 하지만 비어 있는 상태를 의미합니다. 설문 무응답, 센서 오류, 입력 실수 등 다양한 이유로 발생하며, 그대로 두면 분석 결과를 왜곡할 수 있습니다.
3. 결측치 확인 Quick Start
// 변수 요약 + 결측치 개수 확인
describe varlist
summarize varlist, detail
// 데이터셋 전체 결측치 요약
misstable summarize
// 변수·관측치별 패턴 확인
misstable patterns
missing 열이 0이 아니면 해당 변수에 결측치가 존재합니다.
4. 유용한 명령어와 함수
- tabmiss (SSC 설치): 범주형 변수 결측 비율을 표로 확인
- ssc install tabmiss tabmiss sex income
- missing() 함수: 결측 여부를 0/1로 반환해 인디케이터 변수 생성
- gen price_miss = missing(price)
5. 결측치 처리 전략
삭제(drop)
- 언제? 결측치가 적고 무작위로 발생할 때
- 예시 코드
drop if missing(price, mpg)
대체(impute)
- 언제? 결측치가 많거나 특정 패턴이 있을 때
- 예시 코드 (다중 대체)
mi set mlong
mi register imputed price mpg
mi impute regress price mpg weight, add(5)
6. 시각화로 패턴 파악
결측치 분포를 한눈에 파악하려면 히트맵이 유용합니다.
ssc install missings, replace
missings heatplot
각 행은 관측치, 열은 변수를 나타내며, 색상으로 결측 여부를 표시합니다.
7. 실무 체크리스트. 실무 체크리스트
- 스크립트 상단에 결측치 체크 코드를 고정해 재현성을 확보한다.
- 결측치 처리 전·후 count로 행 수를 비교해 데이터 손실을 확인한다.
- 대체한 값은 mi 프레임워크나 별도 변수로 관리해 원본을 보존한다.
마무리
describe, summarize, misstable, missing()만 익혀도 대부분의 결측치 탐색은 해결됩니다. 깔끔한 데이터를 기반으로 신뢰할 수 있는 분석을 시작해 보세요!
https://link.coupang.com/a/cor39u
쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다
320x100
320x100
'빅데이터 관련 자료' 카테고리의 다른 글
NoSQL에서도 쿼리를 사용할까? 기초 문법과 예제 (2) | 2025.04.23 |
---|---|
SLA 모니터링 정의와 중요성 (0) | 2025.04.22 |
빅데이터 활용 사례 정리 (0) | 2025.04.20 |
VAN(Value Added Network)이란 무엇일까? (1) | 2025.04.19 |
O2O 비즈니스란 무엇인가? (0) | 2025.04.19 |