카테고리 없음

Lv1 | 모델링 | 모델개념 (의사결정나무)

carpe08 2021. 7. 29. 16:04
320x100

# 의사결정나무란?

결정 트리는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다.
                                  A 를 만족하는가?
                         True                            False
                  B를 만족하는가?                     C를 만족하는가?     
               True              False             True              False        
           D 이다                 F이다         G이다                   H이다          
 
 EDA를 통해 data를 살펴보면 각 행들은 피쳐들을 갖고 있다. 이 중 하나의 피쳐를 정해서 해당 피쳐의 값에 대해 특정한 하나의 값을 정한다면, 이를 기준으로 모든 행들을 두개의 노드로 분류할 수 있다.
 대표적인 의사결정나무인 CART 의사결정 나무는 이진분할을 사용한다.
 
 파생된 두 개의 노드에 대해서 또 다시 새로운 피쳐의 특정한 값을 정하고 분류를 정한다.
 이 과정을 반복하게 되면 점점 피쳐의 값에 따라 data들이 분류가 되는데 이를 의사결정 나무의 원리하고 한다.
 
 특정인자

값을 정하는 의사결정 나무의 원칙은 '한쪽 방향으로 쏠리도록' 하는 것이다.
 
 분류가 될 떄는 공평하게 비슷한 양으로 나뉘도록 값을 정하는게 아니며, 한쪽 방향으로 쏠리도록 해주는 특정한 값을 찾는 것으로, 이를 불순도를 계산해서 찾아낸다.
 
 의사결정나무 모델은 scikit-learn 모듈을 불러올 수 있다.

 from sklearn.tree import DecisionTreeClassifier

 

320x100
320x100