'데이터 분석' 태그의 글 목록

머신러닝 대표 알고리즘 정리

머신러닝에는 다양한 알고리즘이 존재하며, 문제 유형이나 데이터 특성에 따라 적합한 알고리즘이 달라집니다. 이번 글에서는 기본적이면서도 널리 사용되는 대표적인 머신러닝 알고리즘 4가지를 소개합니다.1. 결정 트리(Decision Tree)설명: 결정 트리는 데이터를 분할하면서 예측값을 도출하는 트리 구조의 모델입니다. 조건문(if-else)을 따라가며 최종 예측값에 도달합니다.장점:이해와 해석이 쉬움범주형/수치형 데이터 모두에 사용 가능전처리 부담이 적음단점:과적합(Overfitting)이 발생하기 쉬움트리가 깊어지면 복잡해짐활용 예: 고객 이탈 예측, 의사결정 지원 시스템 등2. 서포트 벡터 머신(SVM)설명: SVM은 데이터를 분류하기 위한 최적의 경계(초평면)를 찾는 알고리즘입니다. 마진(margin..

IT/Machine Learning 2025.05.01

NULL 처리의 함정과 COALESCE, IS NULL 전략

NULL 처리의 함정과 COALESCE, IS NULL 전략SQL을 다루다 보면 무심코 지나칠 수 있는 것이 바로 NULL입니다. 그러나 이 NULL이라는 존재는 예상치 못한 결과를 만들며 우리를 당황하게 할 수 있습니다. 오늘은 NULL 처리의 함정과 함께, 이를 다루는 대표적인 전략인 COALESCE, IS NULL에 대해 알아보겠습니다.왜 NULL 처리가 중요한가?NULL은 단순한 '빈 값'이 아닙니다. '값이 없음'을 의미하는 특수한 상태이기 때문에 일반적인 비교 연산이나 산술 연산이 불가능합니다.SELECT 1 + NULL; -- 결과는 NULLSELECT NULL = NULL; -- 결과는 FALSE가 아닌 UNKNOWN이처럼 NULL은 우리가 흔히 기대하는 동작과 다르게 반응하기 때문에,..

IT/[SQL] Basic 2025.04.30

SQL에서 DDL과 JOIN은 어떻게 다를까?

SQL을 처음 접하거나 실무에서 데이터 분석을 막 시작한 사람이라면, DDL과 JOIN의 차이를 헷갈려 하는 경우가 많다. 이 글에서는 두 개념의 차이와 각각의 역할에 대해 쉽게 정리해본다.DDL이란?DDL(Data Definition Language)은 데이터베이스의 구조를 정의하거나 변경하는 명령어 집합이다. 즉, 데이터를 다루기 위한 그릇을 만드는 단계라고 볼 수 있다.대표적인 DDL 명령어는 다음과 같다:CREATE: 테이블, 뷰, 인덱스 등을 생성할 때 사용ALTER: 기존 객체(테이블 등)의 구조를 수정할 때 사용DROP: 객체를 삭제할 때 사용예시:CREATE TABLE users ( id INT PRIMARY KEY, name VARCHAR(50), created_at TIMESTAM..

IT/[SQL] Basic 2025.04.28

Stata에서 결측치 찾기: 실무형 미니 가이드

데이터 분석의 첫걸음은 깨끗한 데이터를 확보하는 일입니다. 그중에서도 결측치(missing value)를 파악하고 처리하는 과정은 필수입니다. Stata에서는 몇 가지 간단한 명령어만으로도 결측치를 탐색하고 시각화할 수 있습니다. 이 글에서는 자주 쓰이는 명령어와 실무 팁을 깔끔하게 정리했습니다.1. Stata란?Stata는 통계 분석, 데이터 관리, 그래픽 기능을 하나로 묶은 상용 소프트웨어입니다. 명령어 기반 CLI와 GUI를 모두 지원하며 경제학·사회과학·보건의료 등 다양한 분야 연구자들이 널리 사용합니다.2. 결측치란?값이 기록되어야 하지만 비어 있는 상태를 의미합니다. 설문 무응답, 센서 오류, 입력 실수 등 다양한 이유로 발생하며, 그대로 두면 분석 결과를 왜곡할 수 있습니다.3. 결측치 확인..

빅데이터 관련 자료 2025.04.21

(2025.04) A/B 테스트 핵심 단계 정리

🎯 A/B 테스트란 무엇인가요?"이 버튼 색을 바꾸면 더 클릭할까?" "가격을 10% 할인하면 구매율이 늘어날까?"이처럼 사용자 반응을 확인하고 싶을 때 쓰는 대표적인 방법이 바로 A/B 테스트입니다. 두 가지 이상의 버전을 사용자에게 무작위로 노출시켜 어떤 버전이 더 나은 성과를 내는지 통계적으로 검증하는 실험 방법입니다. UI 변경, 가격 정책, 문구 테스트, 추천 방식 등 다양한 비즈니스 개선 시 활용됩니다.🧪 A/B 테스트의 핵심 단계1. 가설 설정 (Hypothesis Setting)A/B 테스트의 출발점은 "무엇을 알고 싶은가?"입니다. 가설은 단순하면서도 명확해야 합니다.예시 목표: 상품 상세 페이지에서 구매율을 높이고 싶다가설: "상품 이미지 크기를 키우면 구매 전환율이 증가할 것이다"..

빅데이터 관련 자료 2025.04.18

AWS 기반 데이터 ETL 구축하기

데이터를 효과적으로 수집하고 변환하여 저장하는 과정은 모든 데이터 중심 기업에서 중요한 역할을 합니다. AWS(Amazon Web Services)는 다양한 ETL(Extract, Transform, Load) 서비스를 제공하여 데이터 처리 파이프라인을 효율적으로 구축할 수 있도록 지원합니다. 이번 글에서는 AWS 기반 ETL 프로세스의 개념과 활용 사례를 살펴보겠습니다.1. ETL이란?ETL은 Extract(추출) → Transform(변환) → Load(적재) 의 약자로, 데이터를 원본 시스템에서 가져와 변환한 후 최종 저장소로 로드하는 과정을 의미합니다.Extract (추출): 데이터 소스(S3, RDS, 로그 파일 등)에서 데이터를 가져오는 단계Transform (변환): 데이터 정제, 필터링, ..

빅데이터 관련 자료 2025.04.03

🚛 풀필먼트 서비스에서 데이터 분석은 어떻게 활용될까?

1. 풀필먼트 서비스에서 데이터 분석이 중요한 이유풀필먼트는 단순한 물류 창고가 아니라, 데이터 기반 운영 최적화가 중요한 산업물류 효율성, 고객 만족도, 판매자 성장을 극대화하기 위해 데이터 분석이 필수적주문량 증가, 배송 지연 문제 해결, 비용 절감 등에서 데이터 분석이 직접적인 영향을 미침2. 풀필먼트에서 활용할 수 있는 주요 데이터 분석 기법🔹 1) Funnel 분석 – 판매자와 물류 흐름 최적화목적:판매자의 풀필먼트 이용 과정을 단계별로 분석하여 이탈률을 줄이고, 효율성을 높이는 방법 찾기분석 과정:판매자 가입 → 계약 → 첫 입고 → 첫 주문 발생 → 정기 이용어느 단계에서 이탈이 많이 발생하는지 분석예: 가입 후 첫 입고까지 평균 3주 걸린다면, 이 기간을 줄이기 위한 온보딩 개선적용 사례..

빅데이터 관련 자료 2025.02.04

GMV Contribution , GMV 정의

GMV Contribution이란 무엇인가?전자상거래 비즈니스에서 GMV(Gross Merchandise Value)는 플랫폼이나 마켓플레이스에서 발생하는 총 거래액을 의미합니다. 이는 특정 기간 동안 판매된 상품의 총 금액을 나타내며, 제품이 할인되었거나 판매 수수료가 차감되기 전의 금액입니다. GMV는 비즈니스의 성장을 측정하는 중요한 지표이지만, 그 자체로는 어떤 요소가 성장을 이끌었는지, 어떤 제품이나 캠페인이 성공적인지에 대한 정보를 제공하지 않습니다.이 문제를 해결하기 위해 GMV를 세분화해 각 요소가 매출에 어떻게 기여했는지 분석하는 방법이 필요하며, 이를 GMV Contribution이라고 합니다. GMV Contribution은 GMV를 구성하는 여러 요소(제품 카테고리, 마케팅 채널, ..

빅데이터 관련 자료 2024.10.21

Hadoop 하둡 데이터 분석 및 처리 패턴

하둡은 대용량 데이터를 처리하기 위한 강력한 프레임워크로, 다양한 데이터 분석 및 처리 패턴을 제공합니다. 이를 이해하기 위해서는 맵리듀스를 활용한 데이터 분석 예제와 다양한 데이터 처리 기술에 대한 이해가 필요합니다. 1. 맵리듀스를 활용한 데이터 분석 예제와 코드 샘플 맵리듀스는 하둡에서 데이터를 처리하는 핵심적인 프로그래밍 모델입니다. 데이터를 맵(Map) 단계와 리듀스(Reduce) 단계로 나누어 병렬 처리하고 결과를 생성합니다. 예제: Word Count: 이 예제는 문서 내 단어의 빈도를 세는 것으로, 각 단어를 키(key)로, 해당 단어의 등장 횟수를 값(value)으로 하는 맵리듀스 작업을 수행합니다. public class WordMapper extends Mapper { private ..

빅데이터 관련 자료 2023.12.07

train_test_split - (1)

모델링 과정에서 가장 먼저 알아볼 것은 바로 train_test_split() 메소드입니다. train_test_split() 메소드는 데이터 셋을 train_set과 test_set으로 손쉽게 분리할 수 있게 도와주는 메소드입니다. train / test 데이터 셋을 분리하는 이유 먼저, train/test를 분리하는 목적에 대해 정확히 이해해야 합니다. 용어를 정확히 하자면 train/test가 아니라 train/validation이 맞는 표현입니다. 머신러닝 모델에 train 데이터를 학습 시킨 후 test 데이터를 모델로 예측했을 경우 성능이 생각보다 낮게 나오는 경우가 발생합니다. 이러한 현상을 보통 Overfitting 되었다고 합니다. 이미지 출처 : educative.io 즉, 현재 모델이..

IT/Dacon 2021.11.20

하미's 블로그

데이터 분석 11

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31