ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Scikit-learn 주요 기능
    scikit-learn 2025. 1. 10. 15:13

    Scikit-learn 주요 기능

    1. 데이터 전처리 (Preprocessing)
      • 누락 데이터 처리: SimpleImputer, KNNImputer
      • 스케일링: StandardScaler, MinMaxScaler
      • 범주형 변수 인코딩: OneHotEncoder, LabelEncoder
      • 특성 선택 및 생성: PCA, PolynomialFeatures
    2. 머신러닝 모델 제공
      • 회귀: LinearRegression, Ridge, SVR
      • 분류: LogisticRegression, SVM, RandomForestClassifier
      • 클러스터링: KMeans, DBSCAN, AgglomerativeClustering
    3. 모델 평가 및 검증
      • 교차 검증: cross_val_score, GridSearchCV
      • 성능 지표: accuracy_score, mean_squared_error, roc_auc_score
      • 학습/테스트 분할: train_test_split
    4. 모델 최적화
      • 하이퍼파라미터 튜닝: GridSearchCV, RandomizedSearchCV
      • 파이프라인 생성: Pipeline을 통한 전처리 및 모델링 자동화

    데이터 전처리의 중요성

    • 잘못된 전처리: 아무리 좋은 모델을 사용해도 쓰레기 데이터를 입력하면 쓰레기 결과가 나오는 "Garbage In, Garbage Out(GIGO)" 현상이 발생합니다.
    • 올바른 전처리: 적절한 스케일링, 결측값 처리, 이상치 제거는 모델 성능을 크게 향상시킵니다.

     

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import StandardScaler
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.metrics import accuracy_score
    
    # 데이터 로드 및 분할
    data = load_iris()
    X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # 모델 학습 및 예측
    model = RandomForestClassifier()
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    
    # 모델 평가
    print("Accuracy:", accuracy_score(y_test, y_pred))

    'scikit-learn' 카테고리의 다른 글

    scikit-learn_지도학습  (1) 2025.02.14
    머신러닝의 지도학습 - 베이즈 정리 활용  (0) 2025.02.12
    scikit-learn 기능 구현  (0) 2025.01.09
    Classification - 분류  (0) 2025.01.09
    머신러닝 프로세스  (1) 2024.12.29
Designed by Tistory.