'머신러닝' 태그의 글 목록

회귀 모델 평가 지표 정리

분류 모델과 달리 회귀 모델은 연속적인 값을 예측하기 때문에, 그 성능을 평가할 때는 다른 지표를 사용합니다. 이번 글에서는 회귀 문제에서 가장 자주 사용되는 평가 지표인 MAE, MSE, RMSE, R² (결정 계수)에 대해 설명합니다.1. MAE (Mean Absolute Error, 평균 절대 오차)정의: 실제값과 예측값 사이의 절대 오차의 평균공식:MAE = (1/n) * Σ |yᵢ - ŷᵢ|특징:직관적이고 해석이 쉬움이상치에 덜 민감함단위가 원래 데이터와 동일함2. MSE (Mean Squared Error, 평균 제곱 오차)정의: 오차를 제곱한 값의 평균공식:MSE = (1/n) * Σ (yᵢ - ŷᵢ)²특징:큰 오차에 더 큰 패널티 부여 (이상치에 민감)미분 가능해 수학적으로 다루기 쉬움3...

IT/Machine Learning 2025.05.06

머신러닝 vs 딥러닝: 무엇이 다를까?

머신러닝과 딥러닝은 인공지능(AI) 기술의 핵심 축을 이루는 개념입니다. 비슷하게 들리지만, 구조와 학습 방식, 적용 분야에서 큰 차이를 보입니다. 이 글에서는 두 개념을 명확히 구분하고, 어떤 상황에서 각각이 적합한지 알아보겠습니다.머신러닝(Machine Learning)이란?머신러닝은 데이터로부터 패턴을 학습하고 예측하거나 분류하는 알고리즘입니다. 사람이 직접 규칙을 코딩하지 않아도, 데이터 기반으로 모델이 스스로 규칙을 발견합니다.대표 알고리즘:결정 트리(Decision Tree)SVMKNNNaive BayesRandom Forest 등특징:적은 양의 데이터로도 학습 가능피처(Feature) 추출이 필요 (수작업 설계)비교적 빠르게 학습됨딥러닝(Deep Learning)이란?딥러닝은 머신러닝의 하위..

IT/Machine Learning 2025.05.03

앙상블 기법 비교: Bagging vs Boosting

앙상블(Ensemble)은 여러 개의 모델을 결합하여 단일 모델보다 더 나은 예측 성능을 얻기 위한 방법론입니다. 대표적인 앙상블 기법으로는 Bagging과 Boosting이 있으며, 두 방법은 그 구조와 철학에서 차이를 보입니다.Bagging (Bootstrap Aggregating)설명: Bagging은 여러 개의 모델을 독립적으로 학습시키고, 그 결과를 평균 내거나 다수결 투표로 결합하는 방식입니다. 각 모델은 **서로 다른 무작위 샘플(부트스트랩 샘플)**로 학습됩니다.대표 알고리즘: Random Forest특징:각 모델은 병렬적으로 학습됨모델 간 상호작용 없음편향(Bias)은 줄이지 못하지만, 분산(Variance)을 줄여 안정적인 결과 도출장점:과적합 위험이 적음병렬 처리로 학습 속도가 빠름단..

IT/Machine Learning 2025.05.02

머신러닝 준지도학습(Semi-Supervised Learning)이란?

준지도학습(Semi-Supervised Learning)이란?준지도학습은 소량의 레이블이 있는 데이터와 다량의 레이블이 없는 데이터를 함께 활용해 모델을 학습시키는 머신러닝 방법입니다. 지도학습처럼 정답 데이터를 사용하는 동시에, 비지도학습처럼 구조를 파악하여 더 나은 예측 성능을 목표로 합니다.왜 준지도학습이 필요한가?현실 세계에서는 모든 데이터를 레이블링하기가 어렵고 비용도 많이 듭니다. 반면, 비정형 데이터는 풍부하게 존재합니다. 이때 일부만 라벨이 붙은 데이터를 최대한 활용할 수 있는 방법이 바로 준지도학습입니다.준지도학습의 특징지도학습의 정확도와 비지도학습의 범용성을 결합라벨이 적은 상황에서도 비교적 높은 성능 기대데이터 활용 효율성 증가주요 접근 방식Self-training: 모델이 자신이 예..

IT/Machine Learning 2025.04.29

머신러닝 강화학습(Reinforcement Learning)이란?

강화학습은 머신러닝의 한 분야로, 에이전트(Agent)가 환경(Environment)과 상호작용하며 보상(Reward)을 최대화하는 방향으로 학습하는 방법입니다. 마치 사람이 시행착오를 통해 배우는 것처럼, 강화학습 모델도 시도하고, 실패하고, 보상받으며 최적의 행동 전략을 찾아갑니다.강화학습의 핵심 개념Agent(에이전트): 행동을 수행하는 주체 (예: 로봇, 게임 플레이어)Environment(환경): 에이전트가 상호작용하는 대상State(상태): 현재 환경의 정보Action(행동): 에이전트가 선택할 수 있는 행동Reward(보상): 행동에 따른 피드백 (정수나 실수)Policy(정책): 어떤 상태에서 어떤 행동을 할지를 결정하는 전략Value Function(가치 함수): 상태 또는 상태-행동 쌍..

IT/Machine Learning 2025.04.28

머신러닝 비지도학습(Unsupervised Learning)이란?

비지도학습은 머신러닝의 한 종류로, 레이블(정답)이 없는 데이터로부터 패턴이나 구조를 학습하는 방식입니다. 지도학습과 달리, 출력값이 주어지지 않기 때문에 데이터의 숨겨진 구조나 특성을 스스로 파악해야 합니다.비지도학습이 필요한 이유현실 세계의 대부분의 데이터는 레이블이 존재하지 않습니다. 모든 데이터를 사람이 직접 분류하고 라벨링하는 것은 비용과 시간이 많이 들기 때문에, 비정형 데이터에서 의미 있는 정보를 자동으로 추출하는 기술이 중요해졌습니다.대표적인 비지도학습 방법1. 군집화(Clustering)비슷한 특성을 가진 데이터들을 묶는 방식입니다. 대표적인 알고리즘에는 다음과 같은 것들이 있습니다:K-Means: 데이터를 K개의 그룹으로 나눔DBSCAN: 밀도 기반 클러스터링, 잡음 데이터 처리에 유리..

IT/Machine Learning 2025.04.27

딥러닝 vs 머신러닝: 구체적이고 실전적인 비교

딥러닝과 머신러닝은 모두 인공지능(AI)의 범주에 속하지만, 모델 구조와 데이터 처리 방식, 활용 범위에서 뚜렷한 차이를 보입니다. 이 글에서는 단순한 정의를 넘어서 실무적인 관점에서 두 기술의 차이점을 상세히 비교합니다.1. 기본 구조의 차이항목 머신러닝 딥러닝구조다양한 알고리즘 기반 (의사결정트리, SVM 등)인공신경망(ANN), 다층 퍼셉트론(DNN) 기반학습 방식피처 엔지니어링 중심, 규칙 기반 학습End-to-End 학습 (특징 추출까지 자동)입력 데이터구조화된 데이터 위주 (표 형태)비정형 데이터에도 강함 (이미지, 음성, 텍스트)2. 데이터 요구량머신러닝: 적은 데이터로도 학습 가능 (수백~수천 개)딥러닝: 대규모 데이터 필요 (수만~수백만 개)이유는 딥러닝은 수많은 파라미터를 가진 신경망을..

IT/Machine Learning 2025.04.22

확률과 분포: 데이터의 패턴을 이해하는 열쇠

확률과 분포: 데이터의 패턴을 이해하는 열쇠데이터 분석과 통계학에서 확률과 분포는 데이터를 이해하고 모델링하는 데 필수적인 개념입니다. 이 글에서는 확률과 분포의 기본 개념, 주요 분포의 종류, 그리고 이를 실무에서 활용하는 방법을 살펴보겠습니다.1. 확률(Probability)이란?확률은 특정 사건이 발생할 가능성을 수치로 나타낸 것입니다. 확률의 값은 항상 0과 1 사이에 위치하며, 0은 사건이 절대 발생하지 않음을, 1은 사건이 반드시 발생함을 의미합니다.확률의 기본 규칙:확률의 범위: 모든 사건의 확률은 0에서 1 사이의 값을 가짐.전체 확률의 합: 모든 가능한 사건의 확률 합은 1.배반 사건: 두 사건이 동시에 발생할 수 없을 경우, P(A ∪ B) = P(A) + P(B).예제:주사위를 던졌을..

빅데이터 관련 자료 2025.01.02

머신러닝 전 데이터 전처리 방법

데이터 전처리: 데이터 분석과 머신러닝을 위한 필수 과정데이터 전처리는 데이터를 분석하거나 머신러닝 모델에 적용하기 전에 데이터를 정리하고 가공하는 과정입니다. 이를 통해 데이터의 품질을 향상시키고 모델의 성능을 극대화할 수 있습니다. 이번 글에서는 데이터 전처리의 주요 방법과 주의할 점을 정리해보겠습니다.1. 데이터 이해하기데이터의 특성과 분포를 파악하는 것이 가장 먼저 해야 할 일입니다. 이를 통해 어떤 전처리 과정이 필요한지 판단할 수 있습니다. 데이터 시각화와 기초 통계를 활용하면 데이터의 구조와 이상점을 쉽게 확인할 수 있습니다.import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt# 데이터 로드df = pd.read_cs..

IT/Machine Learning 2024.01.22

머신러닝의 기초: 지도학습 개념 및 예시 코드

1. 지도 학습이란?지도 학습(Supervised Learning)은 입력 데이터(특징)와 정답(레이블)을 활용하여 모델을 학습시키는 기계 학습 방법입니다. 주어진 데이터에서 패턴을 찾아 새로운 입력에 대한 예측을 수행할 수 있도록 모델을 훈련하는 방식입니다.지도 학습은 크게 두 가지 유형으로 나뉩니다:분류(Classification): 데이터를 미리 정의된 여러 개의 클래스 중 하나로 분류하는 문제 (예: 스팸 메일 분류)회귀(Regression): 연속적인 값을 예측하는 문제 (예: 주택 가격 예측)2. 분류(Classification) 예제: 이메일 스팸 필터링🔹 문제 정의입력 데이터: 이메일 텍스트 내용레이블: 스팸(1) 또는 정상(0)🔹 코드 구현from sklearn.model_select..

IT/Machine Learning 2024.01.20

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

하미's 블로그

머신러닝 18

티스토리툴바