scikit-learn
-
Scikit-learn 주요 기능scikit-learn 2025. 1. 10. 15:13
Scikit-learn 주요 기능데이터 전처리 (Preprocessing)누락 데이터 처리: SimpleImputer, KNNImputer스케일링: StandardScaler, MinMaxScaler범주형 변수 인코딩: OneHotEncoder, LabelEncoder특성 선택 및 생성: PCA, PolynomialFeatures머신러닝 모델 제공회귀: LinearRegression, Ridge, SVR분류: LogisticRegression, SVM, RandomForestClassifier클러스터링: KMeans, DBSCAN, AgglomerativeClustering모델 평가 및 검증교차 검증: cross_val_score, GridSearchCV성능 지표: accuracy_score, mean_..
-
scikit-learn 기능 구현scikit-learn 2025. 1. 9. 12:49
scikit-learn의 주요 기능과 사용 방법모델 학습 (fit)fit(X, y)로 **특징(X)**과 **목표(y)**를 학습하여 모델을 만듭니다.예: 회귀, 분류, 클러스터링 등 다양한 알고리즘 지원.예측 (predict)predict(X)로 새로운 데이터에 대해 결과를 예측합니다.모델 평가 (score)score(X, y)로 모델의 정확도나 성능 지표를 확인합니다.(분류: 정확도, 회귀: R² 스코어 등)데이터 분할train_test_split로 데이터를 **훈련(train)**과 **테스트(test)**로 나눠 성능을 검증합니다.random_state: 데이터 분할의 재현성을 보장.데이터 전처리LabelEncoder: 카테고리 데이터를 숫자형으로 변환 (e.g., "cat" → 0, "dog" ..
-
Classification - 분류scikit-learn 2025. 1. 9. 12:01
분류란? ( Classification )지도학습은 레이블( label, 명시적인 정답 )이 있는 데이터가 주어진 상태에서 학습하는 머신러닝주어진 데이터 피처( Feature )와 레이블 값을 머신러닝 알고리즘으로 학습해 모델을 생성모델에 새로운 데이터 값이 주어지면 이 알 수 없는 레이블 값을 예측 분류 알고리즘로지스틱 회귀( Logistic Regression ): 독립변수와 종속변수의 선형 관계성결정 트리( decision tree ): 데이터 균일도에 따른 규칙나이브 베이즈( Naive-bays ): 근접 거리를 기준으로 하는 모델신경망( Neural Network ): 심층 연결서포트 벡터 머신( Support Vector Machine ): 개별 클래그 간의 최대 마진을 효과적으로 활용 분류 ..
-
머신러닝 프로세스scikit-learn 2024. 12. 29. 10:34
이터 분석과 머신러닝 모델링에서 중요한 단계들을 데이터 전처리, 학습/테스트 데이터 분리, 모델 학습 및 검증, 예측 수행 및 평가로 나누어 정리해보겠습니다.1. 데이터 전처리 (Data Preprocessing)1.1 데이터 클린징 (Data Cleaning)목표: 모델이 정확한 예측을 할 수 있도록 데이터를 깨끗하고 일관되게 만드는 과정.주요 작업:결손값(Null / NaN) 처리이상치 처리중복 데이터 제거불필요한 열 삭제 등1.2 결손값 처리 (Handling Missing Values)Null: 결측값 또는 데이터가 비어있는 경우.방법: 평균/중앙값/최빈값 대체, 삭제, 예측 값으로 대체, 기타 적합한 방법.pandas에서 fillna() 또는 dropna()로 처리 가능.1.3 데이터 인코딩 (..
-
머신러닝 일반화의 오류scikit-learn 2024. 12. 29. 07:29
과대적합 (Overfitting)과대적합은 모델이 훈련 데이터에 너무 잘 맞아서, 새로운 데이터나 테스트 데이터에 대한 일반화 성능이 떨어지는 현상을 의미합니다. 즉, 훈련 데이터에서만 잘 작동하고, 다른 데이터에서는 잘 작동하지 않는 문제입니다. 과대적합이 발생하는 이유는 모델이 훈련 데이터의 세부적인 노이즈까지 학습하면서 복잡도가 너무 높아지기 때문입니다.과대적합의 특징훈련 데이터에 대해서는 높은 정확도를 보이지만, 테스트 데이터에 대해서는 낮은 정확도를 보입니다.모델이 훈련 데이터에 과도하게 맞추어진 상태이므로 새로운 데이터에 대한 예측이 부정확합니다.모델의 복잡도가 지나치게 높거나, 데이터의 **잡음(noise)**까지 학습하여 일반화 성능이 떨어집니다.과대적합 해결 방법훈련 데이터 더 많이 모음..
-
scikit-learn 분류( Classification )scikit-learn 2024. 12. 29. 07:00
주요 모델과 import 방식(1) Logistic Regression (로지스틱 회귀)이진 분류 및 다중 클래스 분류에 사용.from sklearn.linear_model import LogisticRegression(2) Decision Tree (결정 트리)의사결정 기반으로 분류 작업을 수행from sklearn.tree import DecisionTreeClassifier(3) Random Forest (랜덤 포레스트)다수의 결정 트리를 조합하여 예측 정확도를 높임from sklearn.ensemble import RandomForestClassifier (4) Support Vector Machine (SVM) (서포트 벡터 머신)고차원 데이터에서 분류 작업을 수행from sklearn.svm ..
-
scikit-learn 주요 라이브러리scikit-learn 2024. 12. 25. 10:42
1. 예제 데이터 (sklearn.datasets)설명: sklearn.datasets는 머신러닝 학습을 위한 예제 데이터를 제공합니다. 이 데이터들은 모델 훈련과 테스트, 실험을 위해 자주 사용됩니다.주요 기능:간단한 예제 데이터셋을 제공 (load_iris, load_boston, make_classification 등)커스텀 데이터셋을 생성할 수 있는 함수들 제공.2. 데이터 분리, 검증 & 파라미터 튜닝 (sklearn.model_selection)설명: sklearn.model_selection은 데이터셋을 훈련용과 테스트용으로 나누고, 모델의 성능을 검증하며, 하이퍼파라미터 튜닝을 위한 도구를 제공합니다.주요 기능:교차 검증: train_test_split을 통해 데이터를 훈련 세트와 테스트 ..
-
scikit-learn 비지도 학습scikit-learn 2024. 12. 25. 08:21
1. Scikit-learnScikit-learn은 Python의 가장 널리 사용되는 머신러닝 라이브러리로, 비지도 학습 알고리즘도 다양하게 제공합니다.주요 비지도 학습 알고리즘군집화 (Clustering)KMeans: 데이터를 K개의 클러스터로 그룹화합니다.DBSCAN: 밀도 기반 군집화. 복잡한 형태의 클러스터 탐지.AgglomerativeClustering: 계층적 군집화.MeanShift: 데이터의 밀도 중심에 기반한 군집화.차원 축소 (Dimensionality Reduction)PCA (주성분 분석): 고차원 데이터를 저차원으로 축소.t-SNE: 데이터의 비선형 구조를 시각화.UMAP: 고차원 데이터를 저차원으로 축소하고, 시각화에 유용.연관 분석GaussianMixture: 혼합 가우시안 모..