'빅데이터 관련 자료/Machine Learning' 카테고리의 글 목록 (3 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료/Machine Learning 25

머신러닝 데이터 분석 5회차

UNIT 5-1 분류 및 군집화 문제 분류 vs 군집화 분류 - 지도학습 - 각 데이터 개체별로 class/label이 뭔지, 어떤 그룹에 속하는지 예측하는 문제 - 학습 데이터에 label정보가 필요함 군집화 - 비지도학습 - 데이터 유사도를 기반으로 군집을 형성하는 문제 - 학습 데이터에 특별한 amotation이 필요하지 않음 UNIT 5-2 Logistic Regression(Revision) LSE: 최소제곱법, error의 제곱의 합을 구해 그 합이 최소가 되도록 하는 것 MLE: 최대우도법, 원하는 결과가 나올 가능성을 최대로 만들도록 하는 것 Multiclass Logistic Regression Logistic Regression은 BInary Classification을 하기 위해 사용..

머신러닝 데이터 분석 4회차

UNIT 4-1 Linear Regression 회귀 분석(Linear Regression) - 어떤 변수들이 한 변수의 원인이 되는지 분석하는 방법 - 인과 관계를 수학적으로 분석하는 것 분류 - 단순 회귀분석: 독립변수가 1개일 때 - 다중 회귀분석: 독립변수가 2개 이상일 때 - 선형 회귀분석: 독립변수와 종속변수의 관계가 선형일 때 - 비선형 회귀분석: 독립변수와 종속변수의 관계가 비선형일 때 선형회귀분석 상관관계: 두 사건이 동시한 일어난 경우, 방향에 따라 양, 음의 상관관계 인과관계: 두 사건이 원인과 결과 실습 UNIT 4-2 Logistic Regression 로지스틱 회귀 독립변수의 선형결합을 이용하여 사건의 발생가능성을 예측하는데 사용되는 통계 기법 회귀를 사용하여 데이터가 어느 카테..

머신러닝 데이터 분석 3회차

UNIT 3-1 특징공학 특징(Feature) - 어떠한 벡터들이 분포적으로 모여있는것 - 벡터들의 집합을 구분할 수 있는 기준 - 모델의 성능을 높이는 가장 중요한 요소 - 데이터 성질, 문제마다 유효한 특징은 다름 - 다양한 특징을 만들어보고 직접 확인하는것이 중요 모델과 특징 모델과 특징의 관계 정형 데이터 -> GBDT - 수치의 크기(범위) 자체에는 의미가 없고, 크고 작은 관계가 중요 - 결측값이 있어도 어느정도 처리할 수 있음 - 결정 트리의 내부 반복작업에 따라 변수간 상호 작용을 반영 비정형 데이터 -> 인공신경망 - 값의 범위에 영향을 받음 - 결측값을 채워야 함 - 앞 층의 출력을 결합하여 계산하는 연산으로 변수 간 상호작용을 반영 기초가 되는 특징 베이스라인 특징 - 데이터를 최소한..

머신러닝 데이터 분석 2회차

UNIT 2-1 정형 데이터와 비정형 데이터 정형 데이터 데이터 베이스의 정해진 규칙에 맞게 구조화된 형태(스키마)로 구성된 데이터 머신러닝이 자주 사용 비정형 데이터 정해진 규칙 없이 다양한 형태로 구성된 데이터 딥러닝이 자주 사용 반정형 데이터 정형 데이터와 비정형 데이터가 완벽히 분리되지않는 형태의 데이터 로그 파일 데이터 웨어하우스와 데이터 레이크 데이터 웨어하우스 - 여러 시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 통합해서 관리하는 데이터 베이스 - 하나의 웨어하우스에서 주제별로 데이터 마트를 생성( 필요한것들만 뽑는다) 데이터 레이크 - 원래의 형식으로 대량 저장하여, 정형, 비정형, 반정형 데이터를 모두 적재 - Hadoop, spark 등 다양한 빅데이터 기술 요소를 포함 SU..

머신러닝 데이터 분석 1회차

Unit 1-1 기존의 프로그래밍과 머신러닝 프로그래밍의 차이점 - 프로그래밍 컴퓨터의 프로그램을 작성하는 일. 일반적으로 프로그램의 작성 방법의 결정, 코딩(coding), 에러 수정 등의 작업 모두를 가리키지만 코딩만을 가리킬때도 있다. 명시적 프로그래밍 - 규칙 기반으로 모든 사항을 프로그래밍 하는 것 머신러닝 프로그래밍 - 어떤 데이터로부터 학습을 하여, 학습된 형태로 동작하도록 프로그래밍 하는 것 - 머신러닝|딥러닝|데이터 사이언스 - 통계학 vs 머신러닝 통계학 데이터에 대한 분포 가정에 의존한다. 이론적 솔루션을 제공한다. 해석 가능성이 중요하다. 머신러닝 사람의 두뇌보다 수많은 연산을 의존한다. 이론보다 유연성을 강조한다. 해석 가능성보다 예측력을 우선시한다. - 대표적인 머신러닝 문제 U..

300x250
300x250