이서
Data Analyst
300x250
300x250

전체 글 365

정형 데이터 분석 파이프 라인 (1)

이번 시간에는 정형 데이터 분석의 전체 파이프라인에 대해 복습해 보도록 하겠습니다. 순서는 다음과 같습니다. 1. 탐색적 데이터 분석(EDA) 2. 데이터 전처리 3. 머신러닝 모델링 4. 모델 튜닝 탐색적 데이터 분석(EDA) EDA: 처음 데이터를 수집하였을 때 다양한 각도에서 관찰하고 이해하는 과정 EDA 과정이 필요한 이유는 데이터 분석을 시작 하기 전에 데이터에 대한 100% 이해가 필요하기 때문입니다. 데이터를 잘 이해하고 파악하여야 목적에 맞게 데이터를 정제시킬 수 있고 더 나아가 새로운 인사이트를 도출 할 수 있게 될 것이다. 라이브러리 불러오기 (import) 파일 불러오기 (read_csv()) 행열갯수 관찰하기 (shape) 데이터 확인하기 (head()) 결측치 유무 확인하기 isn..

태블로 기초 - 1.태블로 부분 전체 분석

- 누적 막대 차트 (Stacked Bar chart) 태블로에서는 기본적으로 측정 값들을 집계를 하기 때문에 마 크를 누적해서 보는 경향이 강 합니다. 축에 따라 각각의 값들에 대한 개별 측정값과 전체 누적한 값 을 볼 수 있습니다 . 여기서 살펴볼 누적 막대 차트 도 한 덩어리로 집계된 차트를 차원의 값에 따라 잘라서 구분 해 쌓은 다음에 (stacked), 퀵 테 이블 계산을 적용해 구성 비율 을 함께 표시할 수 있습니다 - 파이 차트 (Pie chart) 파이 차트는 전체에 대해 각각 의 비중을 살펴보는 차트입니다 . 전체 한 덩어리를 잘라서 구분 해서 보기 위해서는 차원을 색 상에 넣으면 차원에 포함되어 있는 수에 따라서 1/N 로 동일한 크기로 나눠지는데, 전체에서 각 각의 portion 을 ..

머신러닝 데이터 분석 7회차

UNIT 7-1 딥러닝의 기초 배워야하는 이유 - 데이터와 문제의 복잡성 - 강력한 비선형성 - 현재도 발전하고 있는 것 UNIT 7-2 Neural Network(ANN) 인공신경망 생물학적 뉴런이 서로간에 신호를 보내는 방식을 모방하여 만든 노드(인공 뉴런)의 연결체 - 기본 구성: 입력 레이어, 히든 레이어, 출력 레이어 Neuron Perceptron Back Propagation Activation Function Cross Entropy UNIT 7-3 이미지에 효과적인 CNN 3-layer NN vs ConvNet Image Classification with ConvNet Convolution Layer Convolution 대표적인 모델 UNIT 7-4 효과적인 학습 방법 Optimize..

태블로 이해하기 - 3.태블로 기본 컨셉 이해하기_2

태블로 기본 컨셉 이해하기 (2) 불연속형 (파란색) - 개별적으로 구분 - 유한한 범위, 뷰에 추가하면 머리글을 추가합니다. - Discrete = Blue, Seperate and distinct, finite - Discrete fields draw headers. 연속형 (초록색) - 단절이 없고 끊어지지 않는 무한대 범위, 뷰에 추가하면 축을 추가합니다. - Continuous = Green, unbroken, without interruption, infinite - Continuous fileds draw axes. 라인 차트는 왜 만들까요? 1) 시간 순서에 따른 추세를 보는데 적합하다 2) 만들기 쉽다((더블) 클릭만으로 가능)

태블로 이해하기 - 3.태블로 기본 컨셉 이해하기_1

태블로 기본 컨셉 이해하기 (1) 측정값은 1. 숫자 형식이고, 2. 액션을 통해 3. 설정된 집계에 따라 4. 차트를 만들게 됩니다. 차원은 1. 그 숫자들로 만들어진 차트를 2. 어떻게 나눠서 볼 것인지를 결정합니다. 막대 차트는 왜 만들까? 1) 만들기 쉽다 2) 항목별로 나눠서 보는데 적합하다 3) 카테고리(범주), 순위, 추세를 보는데 유용하다

랜딩페이지 UX/UI - A/B 테스트를 통한 최적화 실습

1. 최적화 실험 소개 A/B Test 최적화 실험에서 가장 대표적이며 널리 사용되는 방법 서로 다른 집단에게 동일한 비율로 각기 다른 요소를 제공해 그 결과를 비교 Google Optimize https://optimize.google.com 구글에서 제공하는 사이트 최적화 실험 도구 2. 최적화 실험 도구, 구글옵티마이즈 세팅 (1) Google Optimize 실험 유형 A/B 테스트 : 둘 이상의 대안 페이지를 테스트 하는 방법 다변수 테스트 : 둘 이상의 다른 섹션으로 대안 페이지를 테스트 하는 방법 리디렉션 테스트 : 다른 URL 또는 경로로 식별되는 별도의 웹페이지를 테스트 하는 방법 3. 최적화 실험 도구, 구글옵티마이즈 세팅 (2) 실험만들기 페이지에서 할 수 있는 것들 실험 실행 대안페..

랜딩페이지 UX/UI - 사용자 경험 연구

1. 사용자 경험을 돕는 마케팅 툴 소개 Google Analytics : 사용자들의 Web/App에서의 경험을 데이터로 확인할 수 있게 해주는 분석 도구 Google TagManager : 구글 애널리틱스 뿐만 아니라 구글 옵티마이저 등의 툴 설치를 도와줄 뿐만 아니라 다양한 이벤트 행동을 추적할 수 있게 해줌 Hotjar : 사용자들의 사이트 내 마우스 행동을 직관적인 히트맵 형식으로 보여주는 도구 2. 사용자 경험 연구와 인사이트 대표적인 실험 예시 효과의 극대화 : 기존 페이지의 전환율을 더 높이고자 하는 실험 개선 : 이탈율이 특히 높은 페이지의 개선 랜딩페이지 : 광고를 통해 고객이 처음 만나는 페이지의 효과 개선 및 극대화 대표적 사용자 경험 인사이트 연구 사례 Dell 장바구니 : 장바구니..

랜딩페이지 UX/UI - 마케터는 왜 UX/UI를 알아야 할까?

1. 퍼포먼스 마케터와 UX/UI UX/UI의 중요성 온라인 상에서 고객에게 브랜드를 알리고 기억하게 하기 위해 제공하는 경험 고객에게 제공하는 경험은 브랜드를 인식하는 첫 단계이자 마지막 기회 고객에게 제공하는 경험이 추후 구매 또는 브랜드 충성도로 이어지는 초석 2. UX/UI? UX : 제품, 서비스, 시스템 등을 사용하면서 사용자가 느끼는 총체적 경험 UI : 사용자를 고려해서 만든 제품, 서비스, 시스템과 사용자가 만나는 접점 3. 디지털 마케팅과 UX/UI 디지털 마케팅의 성과 주의와 UX/UI가 추구하는 지속가능성은 같은 방향으로 진행되어야 한다. 따라서 성과를 내고 최적화를 통해 지속가능성 있는 성과를 창출하는 것이 바람직하다. 참고자료 https://ko.wikipedia.org/wiki..

머신러닝 데이터 분석 6회차

UNIT 6-1 과적합과 과소적합 머신러닝에서 문제를 해결한다는 것 - 목적함수에 근사하는 것 - 목적함수는 분류 및 예측 등의 문제를 해결하는데 사용 - 목적 함수를 학습할 때 가장 중요한것? 일반화 - 특히 수집된 데이터는 불완전하고 noisy하기 때문에 일반화가 중요 머신러닝의 일반화 - 일반화: 학습한 모델이 학습할 때 볼 수 없었던 특정한 데이터에 대해서 얼마나 잘 작동하는지 - 좋은 머신러닝 모델은 학습 데이터에서 문제 영역의 모든 데이터로 잘 일반화한것 - 심지어 본 적 없는 데이터에 대해서도 예측하기를 바람 - 머신러닝 모델이 새로운 데이터에 대해서 얼마나 잘 일반화하는지를 판단하는 방법? =>과적합과 과소적합 과적합과 과소적합 - 과적합은 학습 데이터를 너무 잘 모델링한 것 - 새로운 데..

XGBoost 튜닝 - 2

XGBoost 파라미터중 과적합을 방지하는 gamma, max_depth, subsample 3가지 파라미터를 튜닝 해보도록 하겠습니다. # X에 학습할 데이터를, y에 목표 변수를 저장해주세요 X = train.drop(columns=['index','quality']) y = train['quality'] # XGBoost의 하이퍼 파라미터의 범위를 dictionary 형태로 지정해주세요 ## Key는 XGBoost hyperparameter이름이고, value는 탐색할 범위 입니다. xgb_parameter_bounds = { 'gamma':(0,10), 'max_depth':(1,3), 'subsample':(0.5,1) } # 함수를 만들어주겠습니다. # 함수의 구성은 다음과 같습니다. # 1...

XGBoost 튜닝

이번 시간에는 Bayesian Optimization을 이영헤 XGBoost 모델을 튜닝해보도록 하겠다. 튜닝에 앞서 XGBoost의 하이퍼 파라미터를 알아보겠다. learning rate 기본값:0.3 - learning reate가 높을 수록 과적합하기 쉽다. subsample 기본값:1 - weak learner가 학습에 사용하는 데이터 샘플링 비율이다. - 보통 0.5 ~ 1 사용된다. - 값이 낮을수록 과적합이 방지된다. n_estimator 기본값:100 - 생성할 weak learner 수 - learning rate가 낮을 때, n_estimator를 높여야 과적합이 방지된다. max_depth 기본값:6 - 트리의 maximum depth이다 - 적정한 값이 제시되어야 하고 보통 3~10..

머신러닝 데이터 분석 5회차

UNIT 5-1 분류 및 군집화 문제 분류 vs 군집화 분류 - 지도학습 - 각 데이터 개체별로 class/label이 뭔지, 어떤 그룹에 속하는지 예측하는 문제 - 학습 데이터에 label정보가 필요함 군집화 - 비지도학습 - 데이터 유사도를 기반으로 군집을 형성하는 문제 - 학습 데이터에 특별한 amotation이 필요하지 않음 UNIT 5-2 Logistic Regression(Revision) LSE: 최소제곱법, error의 제곱의 합을 구해 그 합이 최소가 되도록 하는 것 MLE: 최대우도법, 원하는 결과가 나올 가능성을 최대로 만들도록 하는 것 Multiclass Logistic Regression Logistic Regression은 BInary Classification을 하기 위해 사용..

태블로 이해하기 - 2. 태블로 이해 및 설치하기

(1) 태블로란? '태블로' 는 데이터를 분석 및 시각화하는 Business Intelligence(이하 BI) 솔루션입니다. 이것은 비즈니스를 운영하면서 얻은 데이터를 수집, 저장, 분석하여 성과를 최적화하는 프로세스와 방법을 망라하는 포괄적인 용어입니다. 다시 말해 데이터를 활용해 최선의 의사결정을 내리고, 결과적으로 비즈니스 목표를 달성하게 만드는 모든 과정과 방법을 의미한다. '태블로'는 이러한 과정과 방법을 위한 솔루션으로써 '사람들이 데이터를 보고 이해할 수 있도록 돕고 있습니다. 태블로는 스스로 데이터를 이해하는 셀프 서비스 분석영역에서 조직과 조직 구성원이 데이터를 활용하는데 도움을 줍니다. 현재 태블로는 '데이터 분석 분야의 신뢰받는 리더' 로서 사람과 조직이 한층 더 데이터 기반의 의사..

태블로 이해하기 - 1. 디지털로 전환

(1) Digital Transformation 코로나 팬더믹 이후로 사회는 불확실성이 늘어나고 있습니다. 불확실하다는 것은 눈에 보이지 않아 결정하기 어렵다는 뜻으로 해석할 수 있습니다. 이 와중에도 확실한 것들은 있습니다. 비즈니스 과정에서 중요한 의사결정들을 데이터 기반으로 하는 것입니다. 데이터는 20세기의 원유와 같은 존재 정보 생성 및 처리 속도 급격하게 변화하였다. 우리가 사용하는 디바이스도 휴대성 + 이동성 => 24시간 끊임없이 데이터를 생성 => 데이터 활용 고객 맞춤 추천 서비스 (2) Data Literacy = 데이터를 보고 활용할 수 있는 능력 데이터를 보는 것이 아니라 탐색을 통해 자신이 이해하고, 이를 다른 사람과 대화와 협업을 통해 찾은 통찰을 공유하는 능력 태블로를 도입하..

Bayesian Optimization 실습

이번 시간에는 Bayesian Optimization 실습을 진행 하도록 하겠다. 실습의 순서는 크게 다음과 같다. 변경할 하이퍼 파라미터의 범위를 설정한다. Bayesian Optimization 에 필요한 함수 생성 Bayesian Optimization를 이용해 하이퍼 파라미터 튜닝 # X에 학습할 데이터를 , y에 목표 변수를 저장해주세요 X = train.drop(columns=['index','quality']) y = train['qualit'] # 랜덤포레스트의 하이퍼 파라미터의 범위를 dictionary 형태로 지정해주세요 # Key는 랜덤포레스트의 hyperparameter 이름이고, value는 탐색할 범위이다. rf_parmeter_bounds={ 'max_depth' : (1,3)..

Bayesian Optimization 복습

튜닝 부분에서 Randomforest, XGBoost, Light GBM 총 3개의 모델을 튜닝하고 Voting Classifier로 만드는 과정을 진행 할 예정이다. 모델을 튜닝 하기전에 우선 진행했던 Bayesian Optimization에 대해 복습하는 시간을 갖도록 하겠습니다. Bayesian Optimization 우리가 흔히 알고 있는 하이퍼 파라미터 튜닝방법은 Grid Search, Random Search 이다. Grid Search란 가능한 하이퍼파라미터 경우의 수를 일정 구간으로 나눠 구간별로 균일하게 대입해보는 방식이다. 간격을 어떻게 잡을지 정하는 것이 문제고, 시간이 너무 오래걸린다는 단점이 있다. Random Search란 가능한 하이퍼파라미터 조합을 random하게 선택해서 대..

Voting Classifier 실습

오늘은 이전 시간에 배운 Voting Classifier실습을 진행 하도록 하겠다. Voting Classifier에는 Hard voting 과 Soft voting 두 개중 Soft Voting을 이용 할 예정으로 VotingClassifier은 sklearn라이브러리에서 제공하겠다. from sklearn.ensemble import VotingClassifier VC = VotingClassifier(estimators=[('rf',RF),('xgb',XGB),('lgbm',LGBM)],voting='soft') from lightgbm import LGBMClassifier from xgboost import XGBClassifier from sklearn.ensemble import Voting..

Voting Classifier 정의

Voting Classifier란 여러개의 모델을 결합하여 더 좋은 예측 결과를 도출하는 앙상블 기법 중 하나이다. Voting Classifier에는 hard voting 방법 과 soft voting 방법이 있다. Hard Voting Hard Voting은 Majority Voting이라고도 하며, 각각의 모델들이 결과를 예측하면 각 모델의 예측을 모아 다수겨 투표로 최종 예측 결과를 선정하는 방식이다. 그림을 보면 첫 번째 분류기는 0.9의 확률로 생존을 선택, 두 번째 분류기는 0.6확률로 사망을 선택, 세번째 분류기는 0.7의 확Voting Classifier 률로 사망을 선택하였다. 생존을 선택한 모델이 1개, 사망을 선택한 모델이 2개이기때문에 Voting Classifier은 최종적으로 ..

stratified k-fold 실습

지난 시간에 Stratified K-fold 개념에 대해 배웠다. Stratified K-fold란, K-fold의 문제점인 target 데이터의 비율을 일정하게 유지하며, 교차 검증을 진행하는 것이다. 이번 시간에는 stratified k-fold와 Light GBM 을 이용해 와인 품질 분류를 실습해보도록 하겠다. # Stratified K-folde라이브러리를 이용해 5개의 fold로 나눔 skt = StrarifiedKFold(n_splits=5) X = tarin_onde.drop('quality',axis=1) y = train['quality'] cnt = 1 acc = 0 for train_idx, valid_idx in skf.split(X,y): train_data = train.ilo..

stratified k-fold 란 ?

K-fold 교차검증에 대해 간단히 설명하면 학습 데이터 셋을 학습 데이터와 검증 데이터로 나눠 반복해서 검증 및 평가하는 것을 의미한다. K-fold 문제점 K-fold 의 경우 데이터 셋을 일정한 간격으로 잘라서 사용한다. 그러다 보니 target의 비율이 일정하지 않게 테스트 셋에 들어갈 수 있다. 만약 target이 0.1,2 세가지로 이뤄져 있는데, 이 상황에서 데이터를 잘라서 학습 할 때, 0,1 만 답으로 가지고 있는 학습데이터를 가지고 학습을 했을때는 당연하게도 모델은 2라는 답을 도출 할 수없다. 마찬가지로 1,2 만 가지고 학습을 진행한다면 0이라는 답을 도출 할 수 없다. 이러한 점이 K-fold의 치명적인 문제점이다. K-fold의 문제점인 target 데이터의 비율을 일정하게 유지..

머신러닝 데이터 분석 4회차

UNIT 4-1 Linear Regression 회귀 분석(Linear Regression) - 어떤 변수들이 한 변수의 원인이 되는지 분석하는 방법 - 인과 관계를 수학적으로 분석하는 것 분류 - 단순 회귀분석: 독립변수가 1개일 때 - 다중 회귀분석: 독립변수가 2개 이상일 때 - 선형 회귀분석: 독립변수와 종속변수의 관계가 선형일 때 - 비선형 회귀분석: 독립변수와 종속변수의 관계가 비선형일 때 선형회귀분석 상관관계: 두 사건이 동시한 일어난 경우, 방향에 따라 양, 음의 상관관계 인과관계: 두 사건이 원인과 결과 실습 UNIT 4-2 Logistic Regression 로지스틱 회귀 독립변수의 선형결합을 이용하여 사건의 발생가능성을 예측하는데 사용되는 통계 기법 회귀를 사용하여 데이터가 어느 카테..

Light GBM 실습

이번 시간에는 LGBM 을 이용해 와인품질 분류를 진행하겠다. LGBM의 경우에도 Scikit learn 라이브러리에서 제공하지 않는다. XGBoost와 마찬가지로 직접 라이브러리를 설치해 불러와야 한다. # 데이터 확인 train.head() # 원핫 인코딩 (pd.get_dummies()) train_one = pd.get_dummies(train) test_one = pd.get_dummies(test) # 모델 정의 from lightgbm import LGBMClassifier model = LGBMClassifier() # 모델 학습 # X 는 train에서 quality 를 제외한 모든 변수 # y 는 train의 qulity 변수 X = train_one.drop('quality',axis..

LGBM 개념

오늘 알아볼 개념은 LightGBM이다. 머신러닝에서 부스팅 알고리즘은 오답에 가중치를 더하면서 학습을 진행하는 알고리즘이다. 그 중 Gradient Boosting Machine(GBM)은 가중치를 경사하강법으로 업데이트 했다. 지난 시간에 배운 XGBoost는 GBM의 단점을 보완한 알고리즘이다. xgboost는 굉장히 좋은 성능을 보여주었지만, 여전히 속도면에서 조금 늘다는 단점이 존재한다. 이러한 단점을 보완해주기 위해 탄생한것이 LightGBM이다. LGBM의 특징 LGBM은 기존의 gradient boosting 알고리즘과 다르게 동작된다. 기존 boosting 모델들은 트리를 level-wise 하게 늘어나는 방법을 사용한 반면, LGBM은 leaf wise 트리 분할을 사용한다. leaf-..

XGBoost 실습

안녕하세요 이번시간에는 XGBoost를 이용해 와인 품질 분류를 진행하도록 하겠다. XGBoost의 경우 자주 사용했던 Scikit learn 라이브러리에서 기본적으로 제공하지 않는다. 그래서 직접 XGBoost 라이브러리를 설치해 불러와야 한다. #데이터 확인 train.head() #원핫 인코딩(pd.get_dummies()) train_one = pd.get_dummies(train) test_one = pd.get_dummies(test) #모델 정의 model = XGBClassifier() #모델 학습 # X는 train에서 quality를 제외한 모든 변수 # y는 train의 quality 변수 # fit 메소드를 이용해 모델 학습 model.fit(X,y) #predict 메소드와 tes..

XGBoost 개념

이번 시간과 다음 시간에는 Boosting 모델 중 하나인 XGboost 모델을 배워볼 예정이다. 이번 시간에는 xgboost의 개념과 사용법에 대해 익히고, 다음 시간에는 xgboost를 이용해 와인 품질 분류를 진행해보겠다. XGBoost란? XGBoost는 Extreme Gradient Boosting의 약자이다. Boosting 기법을 이용하여 구현한 알고리즘은 Gradient Bosst가 대표적 이 알고리즘을 병렬 학습이 지원되도록 구현한 라이브러리가 XGBoost이다. Regression, Classification 문제를 모두 지원하며, 성능과 자원 효율이 좋아서, 인기 있게 사용되는 알고리즘이다. 여기서 Boostinge디갖 무엇이냐면, 여러개의 성능이 높지 않은 모델을 조합해서 사용하는 ..

머신러닝 데이터 분석 3회차

UNIT 3-1 특징공학 특징(Feature) - 어떠한 벡터들이 분포적으로 모여있는것 - 벡터들의 집합을 구분할 수 있는 기준 - 모델의 성능을 높이는 가장 중요한 요소 - 데이터 성질, 문제마다 유효한 특징은 다름 - 다양한 특징을 만들어보고 직접 확인하는것이 중요 모델과 특징 모델과 특징의 관계 정형 데이터 -> GBDT - 수치의 크기(범위) 자체에는 의미가 없고, 크고 작은 관계가 중요 - 결측값이 있어도 어느정도 처리할 수 있음 - 결정 트리의 내부 반복작업에 따라 변수간 상호 작용을 반영 비정형 데이터 -> 인공신경망 - 값의 범위에 영향을 받음 - 결측값을 채워야 함 - 앞 층의 출력을 결합하여 계산하는 연산으로 변수 간 상호작용을 반영 기초가 되는 특징 베이스라인 특징 - 데이터를 최소한..

전처리 복습 - (2)

파생 변수 머신러닝 모델링을 하다 보면 제한된 변수로 성능을 끌어 올리는 데는 한계가 있다. 특히 정형 데이터의 경우 데이터 증강은 제한적이다. 그래서 더욱더 효율적인 파생 변수를 추가하는 것이 중요하다. 파생 변수를 가장 간단하게 추가하는 방법은 연속형 변수를 범주형 변수로 변환하는 방법이 있다. 두번째로는 sklearn의 Polynomial features 라이브러를 이용해 기존 변수를 다항식 형태로 변환 시키는 방법이있다. 연속형 변수 변환 연속형 변수를 범주형 변수로 변환 시키는 방법은 여러가지가 있겠지만 그중 2가지만 알아보겠다. 1. 수치범위구간을 직접 레이블링 하기 2. pandas의 cut() 함수로 레이블링 하기 특히 두번째 pandas cut() 함수를 이용하면 손쉽게 연속형 변수를 범..

전처리 복습 - (1)

다중 공선성 해결 다중 공선성 해결하는 방법은 3가지가 있다. 1. 변수 정규화 2. 변수 제거 3. PCA(주성분 분석) 변수 정규화 - 변수 정규화의 경우 MinMaxScaler()를 통해 손쉽게 구할 수 있다. 변수 제거 - VIF(분산 팽창 요인) 계수가 10이상인 변수들을 다중 공선성이 있다고 판단하여 제거 한다. PCA(주성분 분석) - PCA는 차원 축소의 방법 중 하나인 feature extraction의 대표적인 기법이다. * 차원 축소: 많은 피처로 구성된 다차원 데이터 셋의 차원을 축소해 새로운 차원의 데이터 셋을 생성하는 것 * feature extraction: 기존 피처를 단순 압축이 아닌, 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것

Lv4 | 전처리 | Polynomial Features (2)

이전 시간에 Polynomial Features 라이브러리에 대해 간략하게 알아보았다면, 이번 시간에는 와인 품질 분류 데이터에 Polynomial Features를 적용해보고 decision Tree 모델을 이용해 품질 분류를 해보도록 하겠다. 1. Train 데이터 변환 2. 모델 학습(Decision Tree) 3. Test 데이터 변환 4. 추론 5. 정답 파일 생성 # train 데이터를 PolynomialFeatures 를 이용하여 변환 poly_feautres = PolynomialFeatures(degree=2) # 2차원으로 설정 # 와인 품질 기준인 quality 변수를 제외한 나머지 변수를 포함한 데이터 변환. df =train.drop("quality",axis=1) df_poly ..

Lv4 | 전처리 | Polynomial Features (1)

이전에는 연속형 데이터를 범주형 데이터로 변환 시키는 방법으로 변수를 추가헀다면, 요번에는 Polynomial Features라는 라이브러리에 대해 알아보도록 하겠다. Polynomial Features 라이브러리는 sklearn 에 내장되어 있는 라이브러리이다. Polynomial Features 라이브러리를 이용하면 현재 데이터를 다항식 형태로 변환 시킬 수 있다. 데이터에 x1, x2변수가 있다하면 PolynomialFeatures 라이브러리를 이용해 1. x1, x2, x1^2, x1*x2, x2^2로 간단하게 변환 시킬 수 있다. # 임의 데이터 생성 X = np.arrange(6).reshape(3,2) df = pd.DataFrame(X) df.columns = ['x_1','x_2'] po..

300x250
300x250