scikit-learn
๊ณตํต์ ์ผ๋ก ์์ฃผ ๋ฑ์ฅํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ
gggg21
2025. 3. 24. 10:47
โ ๐ ๊ณตํต์ ์ผ๋ก ์์ฃผ ๋ฑ์ฅํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ
๋๋ถ๋ถ์ ๋ชจ๋ธ์์ ์๋์ ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ์์ฃผ ๋ฑ์ฅํฉ๋๋ค.
1๏ธโฃ ๋ชจ๋ธ ๋ณต์ก๋ ์กฐ์ ๊ด๋ จ
ํ์ดํผํ๋ผ๋ฏธํฐ์๋ฏธ
n_estimators | ์์๋ธ ๋ชจ๋ธ์์ ๊ฐ๋ณ ๋ชจ๋ธ(ํธ๋ฆฌ)์ ๊ฐ์ (RandomForest, XGBoost ๋ฑ) |
max_depth | ํธ๋ฆฌ ๊ธฐ๋ฐ ๋ชจ๋ธ์์ ์ต๋ ๊น์ด (Overfitting ๋ฐฉ์ง) |
min_samples_split | ๋ ธ๋๋ฅผ ๋ถํ ํ๊ธฐ ์ํ ์ต์ ์ํ ๊ฐ์ (์์์๋ก ๋ณต์กํด์ง) |
min_samples_leaf | ๋ฆฌํ ๋ ธ๋์ ํ์ํ ์ต์ ์ํ ๊ฐ์ |
max_features | ๋ ธ๋ ๋ถํ ์ ๊ณ ๋ คํ ์ต๋ ํน์ง ๊ฐ์ |
2๏ธโฃ ์ ๊ทํ ๋ฐ ๊ท์ ๊ด๋ จ (Overfitting ๋ฐฉ์ง)
ํ์ดํผํ๋ผ๋ฏธํฐ์๋ฏธ
alpha | Lasso/L1 ๊ท์ ๊ณ์ (๊ฐ์ด ํด์๋ก ๊ฐํ ์ ๊ทํ) |
lambda | Ridge/L2 ๊ท์ ๊ณ์ |
learning_rate | XGBoost, LightGBM ๋ฑ์์ ํ์ต ์๋ ์กฐ์ |
subsample | ํธ๋ฆฌ ๋ชจ๋ธ์์ ๋ฐ์ดํฐ ์ํ๋ง ๋น์จ (๊ณผ์ ํฉ ๋ฐฉ์ง) |
3๏ธโฃ ์ต์ ํ ๋ฐ ํ์ต๋ฅ ๊ด๋ จ
ํ์ดํผํ๋ผ๋ฏธํฐ์๋ฏธ
learning_rate | ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent) ํ์ต๋ฅ |
batch_size | ๋ฅ๋ฌ๋์์ ๋ฐฐ์น ํฌ๊ธฐ |
momentum | SGD์์ ๊ธฐ์ธ๊ธฐ ์ด๋ ํ๊ท ์กฐ์ |
optimizer | Adam, SGD, RMSprop ๋ฑ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ ์ ํ |
โ ๐ ๋ชจ๋ธ๋ณ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ ๋ฆฌ
๋ชจ๋ธํต์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ
๋๋ค ํฌ๋ ์คํธ (RandomForest) | n_estimators, max_depth, min_samples_split, min_samples_leaf, max_features |
XGBoost | n_estimators, max_depth, learning_rate, subsample, colsample_bytree, gamma |
LightGBM | num_leaves, learning_rate, n_estimators, max_depth, min_data_in_leaf, feature_fraction |
๋ก์ง์คํฑ ํ๊ท (Logistic Regression) | C (๊ท์ ๊ฐ๋), penalty (L1/L2), solver |
๋ฆฟ์ง & ๋ผ์ ํ๊ท (Ridge/Lasso) | alpha (๊ท์ ๊ฐ๋) |
์ ๊ฒฝ๋ง (MLP, ๋ฅ๋ฌ๋) | learning_rate, batch_size, hidden_layers, activation |
โ ๐ ๊ฒฐ๋ก
- ๋ชจ๋ ๋ชจ๋ธ์์ ์์ฃผ ๋ฑ์ฅํ๋ ๊ณตํต์ ์ธ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋ง์.
(์: n_estimators, max_depth, learning_rate, alpha ๋ฑ) - ํ์ง๋ง ๋ชจ๋ธ๋ณ๋ก ๊ฐ์ฅ ์ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋ค๋ฆ.
(์: XGBoost๋ subsample, ์ ๊ฒฝ๋ง์ hidden_layers ๋ฑ) - ๊ฒฐ๊ตญ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์, ๋ชจ๋ธ ํน์ฑ์ ๊ณ ๋ คํ๋ ๊ฒ์ด ์ค์! ๐
๐ฅ ํ๋ํ ๋ ์ค์๋ ๋์ ๊ฒ๋ถํฐ ์กฐ์ ํ๋ ๊ฒ ํจ์จ์ !