불순도(Impurity) 와 엔트로피(Entropy)
설명이 아주 잘 나온 블로그가 있다.
https://computer-science-student.tistory.com/60
불순도(Impurity)와 엔트로피(Entropy)
불순도(Impurity) 불순도란 다양한 범주(Factor)들의 개체들이 얼마나 포함되어 있는가를 의미한다. 쉽게 말하면 여러 가지의 클래스가 섞여 있는 정도를 말한다. 반대로 순수도(purity)는 같은 클래스
computer-science-student.tistory.com
Decision Tree 분할의 적합성
Decision Tree(이하 DT)에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할해야 하는데, 어떻게 적합하게 분할할 것인가에 대한 기준이 필요하다. 분할의 적합성에 쓰이는 기준은 다음과 같다. 불순도를 엔트로피로 계산한 알고리즘이 ID3이며, 지니계수로 계산한 알고리즘이 CART알고리즘이다.
Gini Impurity
위 그림을 보면 파란 구슬을 분류하는 모델의 불순도는 높을수록 나쁘고 낮을 수록 좋다. 지니 불순도의 공식은 아래와 같은데, p를 파란구슬이 나올 확률, 1-p를 빨간구슬이 나올 확률로 보면 된다.
Information Gain
정보이득이란 어떤 속성을 선택함으로 인해 데이터를 더 잘 구분하게 되는 것을 말하며 상위노드의 엔트로피에서 하위노드의 엔트로피의 값을 뺀 값이다. 새로운 엔트로피의 값은 base entropy의 값보다 작아야 한다. 둘의 차가 높을 수록 잘 분리된 값이라고 볼 수 있다.
Information Gain = Base Entropy - New Entropy
ID3
불순도를 엔트로피로 계산한 것으로 information gain을 최대화 시키는 feature를 찾는 알고리즘. 분류문제에서만 쓰인다. numeric feature는 다룰 수 없다.
CART
불순도를 지니계수로 계산한 알고리즘. numeric feature를 다룰 수 있다.
Feature Importance 란?
데이터의 feature가 알고리즘의 정확한 분류에 얼마나 큰 영향을 미치는지 분석하는 기법으로, 한 feature를 변형했을 때 모델의 예측 결과가 크게 달라졌다면 그 feature에 의존해 모델이 판단을 내리고 있음을 의미한다.
Tree Decomposition
트리를 통해 결정을 추적하고 각 의사결정 노드에서 추가된 기여에 의한 예측을 설명할 수 있다. XAI적 관점에서 split contribution에 관심이 있지 않고, feature contribution에 관심이 있다. featrue contribution이란 특성이 각 트리 노드의 순도를 개선하는 데 얼마나 도움이 되었는지를 말하는 것 같음.
'인공지능 > XAI' 카테고리의 다른 글
[XAI] LRP(Layer-wise Relevance Propagation) (0) | 2023.08.28 |
---|---|
[XAI] Visualization (0) | 2023.08.28 |
[XAI] Filter Visualization (1) | 2023.08.28 |