scikit-learn
머신러닝 - 분류 모델의 이해 -
gggg21
2025. 3. 1. 11:03
1. 선형 회귀 (Linear Regression)
기본적인 회귀 기법으로, 주어진 데이터를 기반으로 **최적의 직선(또는 초평면)**을 찾아 예측하는 방법.
- 장점: 단순하고 빠르며, 해석이 쉬움.
- 단점: 데이터가 선형적이지 않으면 성능이 떨어짐. 다중공선성이 있으면 불안정함.
2. 다항 회귀 (Polynomial Regression)
선형 회귀의 확장으로, 데이터를 더 잘 표현하기 위해 다항식(제곱, 세제곱 등)을 추가하는 기법.
- 장점: 비선형적인 데이터에도 적용 가능.
- 단점: 차수가 너무 크면 과적합 가능성 증가.
3. 릿지 회귀 (Ridge Regression)
선형 회귀의 단점을 보완하기 위해 규제를 추가하여 모델이 과적합되지 않도록 하는 기법.
- 장점: 다중공선성이 있는 데이터에서도 안정적인 예측이 가능.
- 단점: 적절한 규제 강도(α)를 찾아야 함.
4. 라쏘 회귀 (Lasso Regression)
릿지 회귀와 유사하지만, 일부 계수를 0으로 만들어 특성 선택 기능을 수행하는 기법.
- 장점: 중요하지 않은 변수를 제거하여 해석이 쉬워짐.
- 단점: 너무 강한 규제는 중요한 정보까지 제거할 수 있음.
5. 로지스틱 회귀 (Logistic Regression)
이름은 회귀지만 분류 문제에서 사용되며, 데이터를 0 또는 1(이진 분류)로 예측하는 기법.
- 장점: 단순하고 빠르며, 해석이 쉬움.
- 단점: 선형적으로 구분되지 않는 데이터에는 성능이 떨어짐.
6. K-최근접 이웃 회귀 (KNN Regression)
KNN 분류와 동일한 방식이지만, 이웃의 평균을 사용하여 숫자를 예측하는 기법.
- 장점: 단순하고 직관적.
- 단점: K값 설정이 어렵고, 데이터가 많아지면 속도가 느려짐.
7. 결정 트리 회귀 (Decision Tree Regression)
데이터를 여러 개의 구간으로 나누어 평균값을 예측하는 기법.
- 장점: 비선형 데이터에도 적용 가능하고, 해석이 쉬움.
- 단점: 과적합되기 쉬움.
8. 랜덤 포레스트 회귀 (Random Forest Regression)
결정 트리를 여러 개 만들어 예측값을 평균 내는 방식.
- 장점: 과적합을 방지하고 성능이 안정적.
- 단점: 트리 개수가 많아지면 연산량 증가.
9. 서포트 벡터 회귀 (SVR, Support Vector Regression)
서포트 벡터 머신(SVM)의 개념을 확장하여 일정 오차 범위 내에서 최적의 경계를 찾는 방식.
- 장점: 이상치에 강하고, 복잡한 데이터도 다룰 수 있음.
- 단점: 하이퍼파라미터 튜닝이 어렵고 계산량이 많음.
10. XGBoost / LightGBM 회귀
부스팅 기법을 활용한 강력한 회귀 모델로, 결정 트리 기반의 앙상블 방법.
- 장점: 높은 성능과 빠른 속도, 과적합 방지.
- 단점: 파라미터 조정이 복잡하고, 이해하기 어려울 수 있음.