머신러닝 데이터 분석 5회차

IT/Machine Learning

머신러닝 데이터 분석 5회차

carpe08 2021. 9. 27. 21:49

UNIT 5-1 분류 및 군집화 문제

분류 vs 군집화

분류

- 지도학습

- 각 데이터 개체별로 class/label이 뭔지, 어떤 그룹에 속하는지 예측하는 문제

- 학습 데이터에 label정보가 필요함

군집화

- 비지도학습

- 데이터 유사도를 기반으로 군집을 형성하는 문제

- 학습 데이터에 특별한 amotation이 필요하지 않음

UNIT 5-2 Logistic Regression(Revision)

LSE: 최소제곱법, error의 제곱의 합을 구해 그 합이 최소가 되도록 하는 것

MLE: 최대우도법, 원하는 결과가 나올 가능성을 최대로 만들도록 하는 것

Multiclass Logistic Regression

Logistic Regression은 BInary Classification을 하기 위해 사용되는 것이 일반적

하지만, 이를 이용해서도 Mulitclass Classification을 할 수 있다.

Email -> spam, normal, important

One-vs-all(= One-vs-rest) 방식을 이용!

Email -> spam or not

Email -> normalor not

Email -> importantor not

Regularization

overfitting이 생기는 이유는 다양하지만, 너무 모델이 복잡해지면 생길 수 있다. 학습셋에 지나치게 너무 복잡하게 맞춰져서 일반화 성능을 가지지 못하는 경우가 발생하며, 이러한 점에서 해결책이 될 수 있는 방법 중 하나

UNIT 5-3 Sipport Vectot Machine

Support Vector를 통해서 Decision Boundary를 정의하는 모델

Support Vector decision boundary에 가장 가까운 데이터

최적의 decision boundary는 margin이 최대가 될 때

Support Vector를 잘 골라내면, 나머지 데이터는 무시할 수 있음 => 빠른 속도

UNIT 5-4 K-means Clustering

k-means clustering

- k개의 Equal variance의 그룹들로 데이터를 나누는것

- 각각의 그룹은 클러스터에 있는 샘플의 평균으로 설명됨

- k-means 알고리즘의 목표: inertia를 최소화하는 중심 또는 클러스터 내 제곱합 criterion을 최소화하는 것

- 핵심과정

1. 중심의 초기값 설정(렌덤 샘플)

2. 각 샘플을 가장 가까운 중심에 할당

3. 각 이전 중심에 할당된 모든 샘플의 평균값을 취하여 새로운 중심을 생성

UNIT 5-5 MeanShift

- smooth density를 가진 데이터 샘플에서 클러스터를 발견하는 것

- Centroid 기반 알고리즘

- Centroid의 후보를 주어진 영역 내 점들의 평균으로 업데이트하는 방식

- 가까운 Centroid 는 중복된 Cluster일 수 있으므로 제거

- 검색할 영역의 크기를 결정하는 매개변수 bandwidth 존재

- K-means와 다르게 자동으로 클러스터 수를 설정할 필요가 없음

github를 통해 확인

https://github.com/carpe1997/TIL/tree/main/Machine%20Learning/5%ED%9A%8C%EC%B0%A8

320x100

저작자표시

'빅데이터 관련 자료 > Machine Learning' 카테고리의 다른 글

머신러닝 데이터 분석 7회차 (0)	2021.10.06
머신러닝 데이터 분석 6회차 (0)	2021.09.29
머신러닝 데이터 분석 4회차 (0)	2021.09.17
머신러닝 데이터 분석 3회차 (0)	2021.09.13
머신러닝 데이터 분석 2회차 (0)	2021.09.08

현재글머신러닝 데이터 분석 5회차

자주 소통해요~!

250x250

관세음보살, 불교, 데이터 분석, 하이퍼파라미터, 머신러닝, 데이터분석, 파이썬, 다중공선성, 파이썬 기초, hadoop, Oracle SQL, Python, 딥러닝, kubernetes, hackerrank, KSQL, 해커랭크, SQL, SQL 기초, train_test_split,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

하미's 블로그