결정 트리 Decision Tree

scikit-learn

결정 트리 Decision Tree

gggg21 2025. 3. 21. 09:39

🌳 결정 트리(Decision Tree)의 분류 원리

**결정 트리(Decision Tree)**는 데이터를 특성(feature)의 조건에 따라 분할하면서 최적의 예측을 수행하는 알고리즘입니다.
분류(Classification)와 회귀(Regression) 모두 가능하지만, 여기서는 분류 기준에 집중해서 설명할게요!

1️⃣ 결정 트리는 어떻게 작동할까?

결정 트리는 트리 구조를 가지고 있으며, 루트 노드에서 시작해서 가지(branch)를 따라가면서 데이터를 나누는 방식입니다.

🔥 핵심 개념:

각 노드(Node) → 하나의 조건(예: x > 5?)
각 분기(Branch) → 조건에 따라 데이터가 분할됨
리프 노드(Leaf Node) → 최종적으로 결정된 클래스

2️⃣ 결정 트리가 분류를 수행하는 방법

(1) 데이터 분할 (Splitting)

트리는 특성을 하나 선택해서 데이터를 분할합니다.
가장 좋은 분할을 찾기 위해 여러 기준(지니 불순도, 엔트로피 등)을 사용합니다.

(2) 불순도 측정 (Impurity)

분할이 잘 되었는지 판단하는 방법입니다.
대표적인 두 가지 방법:
1. 지니 불순도(Gini Impurity)
  - p_i는 클래스 ii에 속할 확률
  - 값이 작을수록 더 깨끗하게 분류됨
2. 엔트로피(Entropy)Entropy=−∑pilog⁡2piEntropy = - \sum p_i \log_2 p_i
  - 정보 이득(Information Gain)을 최대화하는 방향으로 분할 수행

#지니 불순도
import numpy as np

def gini_impurity(y):
    _, counts = np.unique(y, return_counts=True)  # 클래스별 개수 계산
    probabilities = counts / counts.sum()  # 확률 계산
    gini = 1 - np.sum(probabilities ** 2)  # 지니 불순도 공식 적용
    return gini

# 예제 데이터 (클래스 0, 1로 구성)
y1 = np.array([0, 0, 1, 1, 1])  # 클래스 0: 2개, 클래스 1: 3개
y2 = np.array([0, 0, 0, 1, 1])  # 클래스 0: 3개, 클래스 1: 2개

print("Gini 불순도 (y1):", gini_impurity(y1))
print("Gini 불순도 (y2):", gini_impurity(y2))


#엔트로피
def entropy(y):
    _, counts = np.unique(y, return_counts=True)  # 클래스별 개수 계산
    probabilities = counts / counts.sum()  # 확률 계산
    entropy = -np.sum(probabilities * np.log2(probabilities + 1e-9))  # 로그 0 방지용 작은 값 추가
    return entropy

print("엔트로피 (y1):", entropy(y1))
print("엔트로피 (y2):", entropy(y2))

(3) 반복적으로 분할하여 트리 완성

데이터가 더 이상 나눌 필요가 없을 때까지 위 과정을 반복합니다.
멈추는 조건:
- 노드 내 데이터가 너무 작아질 경우 (과적합 방지)
- 추가 분할이 의미 없을 경우 (불순도가 충분히 낮음)

3️⃣ 결정 트리 구현 (Python)

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 데이터 로드
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 결정 트리 모델 생성
clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)

# 모델 학습
clf.fit(X_train, y_train)

# 예측
y_pred = clf.predict(X_test)

# 정확도 평가
from sklearn.metrics import accuracy_score
print("정확도:", accuracy_score(y_test, y_pred))

criterion='gini' → 지니 불순도 기준으로 분류
max_depth=3 → 과적합 방지를 위해 최대 깊이를 3으로 제한

4️⃣ 장점과 단점

✅ 장점

직관적이고 해석이 쉬움 (트리를 따라가면 결정 과정을 알 수 있음)
비선형 데이터에도 적용 가능
전처리가 거의 필요 없음 (스케일 조정 불필요)

❌ 단점

과적합(Overfitting) 가능성 큼
데이터가 작을 때는 안정성이 떨어짐
작은 변화에도 구조가 크게 바뀔 수 있음

➡ 해결 방법:

max_depth, min_samples_split 등의 하이퍼파라미터 튜닝

랜덤 포레스트(Random Forest)나 부스팅(XGBoost, LightGBM) 사용

🎯 결론

결정 트리는 데이터를 조건별로 분할하면서 최적의 분류 경로를 찾아가는 알고리즘입니다.
👉 하지만 단순한 결정 트리는 과적합되기 쉬우므로, 랜덤 포레스트나 부스팅 모델을 활용하는 것이 실무에서 더 안정적이에요! 🚀