-
scikit-learn의 주요 기능과 사용 방법
- 모델 학습 (fit)
- fit(X, y)로 **특징(X)**과 **목표(y)**를 학습하여 모델을 만듭니다.
- 예: 회귀, 분류, 클러스터링 등 다양한 알고리즘 지원.
- 예측 (predict)
- predict(X)로 새로운 데이터에 대해 결과를 예측합니다.
- 모델 평가 (score)
- score(X, y)로 모델의 정확도나 성능 지표를 확인합니다.
(분류: 정확도, 회귀: R² 스코어 등)
- 데이터 분할
- train_test_split로 데이터를 **훈련(train)**과 **테스트(test)**로 나눠 성능을 검증합니다.
- random_state: 데이터 분할의 재현성을 보장.
- 데이터 전처리
- LabelEncoder: 카테고리 데이터를 숫자형으로 변환 (e.g., "cat" → 0, "dog" → 1).
- OneHotEncoder: 카테고리 데이터를 원-핫 인코딩 (e.g., [1, 0, 0]).
추가로 알아두면 좋은 개념
- 파이프라인 활용
- 전처리와 학습 단계를 연결해 반복 작업을 간소화합니다.
예: Pipeline([("encoder", OneHotEncoder()), ("model", LogisticRegression())])
- 교차 검증 (Cross-validation)
- cross_val_score로 데이터를 여러 번 나누어 모델의 안정성을 평가합니다.
- 하이퍼파라미터 튜닝
- GridSearchCV나 RandomizedSearchCV로 최적의 모델 파라미터를 탐색합니다.
- 스케일링 (StandardScaler, MinMaxScaler)
- 데이터 스케일 조정을 통해 학습 속도와 성능을 개선.