머신러닝 데이터 분석 5회차
Data Analyst

빅데이터 관련 자료/Machine Learning

머신러닝 데이터 분석 5회차

carpe08 2021. 9. 27. 21:49
320x100
320x100

UNIT 5-1 분류 및 군집화 문제

 

분류 vs 군집화

 

분류

- 지도학습

- 각 데이터 개체별로 class/label이 뭔지, 어떤 그룹에 속하는지 예측하는 문제

- 학습 데이터에 label정보가 필요함

 

군집화

- 비지도학습

- 데이터 유사도를 기반으로 군집을 형성하는 문제

- 학습 데이터에 특별한 amotation이 필요하지 않음

UNIT 5-2 Logistic Regression(Revision)

LSE: 최소제곱법, error의 제곱의 합을 구해 그 합이 최소가 되도록 하는 것

MLE: 최대우도법, 원하는 결과가 나올 가능성을 최대로 만들도록 하는 것

 

Multiclass Logistic Regression

 

Logistic Regression은 BInary Classification을 하기 위해 사용되는 것이 일반적

하지만, 이를 이용해서도 Mulitclass Classification을 할 수 있다.

 

Email -> spam, normal, important

 

One-vs-all(= One-vs-rest) 방식을 이용!

 

Email -> spam or not

Email -> normalor not

Email -> importantor not

 

Regularization

overfitting이 생기는 이유는 다양하지만, 너무 모델이 복잡해지면 생길 수 있다. 학습셋에 지나치게 너무 복잡하게 맞춰져서 일반화 성능을 가지지 못하는 경우가 발생하며, 이러한 점에서 해결책이 될 수 있는 방법 중 하나

UNIT 5-3 Sipport Vectot Machine

 

Support Vector를 통해서 Decision Boundary를 정의하는 모델

Support Vector decision boundary에 가장 가까운 데이터

최적의 decision boundary는 margin이 최대가 될 때

Support Vector를 잘 골라내면, 나머지 데이터는 무시할 수 있음 => 빠른 속도

UNIT 5-4 K-means Clustering

k-means clustering

- k개의 Equal variance의 그룹들로 데이터를 나누는것

- 각각의 그룹은 클러스터에 있는 샘플의 평균으로 설명됨

-  k-means 알고리즘의 목표: inertia를 최소화하는 중심 또는 클러스터 내 제곱합 criterion을 최소화하는 것

- 핵심과정

1. 중심의 초기값 설정(렌덤 샘플)

2. 각 샘플을 가장 가까운 중심에 할당

3. 각 이전 중심에 할당된 모든 샘플의 평균값을 취하여 새로운 중심을 생성

q

UNIT 5-5 MeanShift

- smooth density를 가진 데이터 샘플에서 클러스터를 발견하는 것

- Centroid 기반 알고리즘

- Centroid의 후보를 주어진 영역 내 점들의 평균으로 업데이트하는 방식

- 가까운 Centroid 는 중복된 Cluster일 수 있으므로 제거

- 검색할 영역의 크기를 결정하는 매개변수 bandwidth 존재

- K-means와 다르게 자동으로 클러스터 수를 설정할 필요가 없음

 

github를 통해 확인

https://github.com/carpe1997/TIL/tree/main/Machine%20Learning/5%ED%9A%8C%EC%B0%A8

320x100
320x100