์์ผ๋ก๋ ์คํ๋ฆฐํธ ์ฑ๋ฆฐ์ง ์ดํ wrap up ๋ด์ฉ์ ์์ฝํ๋ ค ํฉ๋๋ค.
ํธ๋ฆฌ๋ชจ๋ธ
- ์ ํ๋ชจ๋ธ๋ณด๋ค ์ค์ผ์ผ๋ง์ ๋น๊ต์ ๋ ๋ฏผ๊ฐํ๊ณ ์ ์ฉ ์ ์ฌ๋ฌ ๊ฐ์ ์ ๋น๊ต์ ์์ ๋ก์(ํ๋น์ฑ์ ์ํ ๊ฐ์ ์ ๋ ๊ฒ ๋ณ๋ก ์๋ค.)
- ๊ณผ์ ํฉ๋๊ธฐ ์ฝ๋ค.(๋จ, ์ด๋์ ๋ ๊ณผ์ ํฉ์ด ํต์ ๊ฐ ๋๋ค๋ฉด ์์ ํ์ต์ด ์๋๋ ๊ฒฝ์ฐ๋ณด๋จ ๋ซ๋ค.)
- ์ฌ์ค ์คํ๋ ค ๋ฐ์ ํ ๋ชจ๋ธ์ผ์๋ก ํ์ต์ ๋๋ฌด ์ํด์ ๊ณผ์ ํฉ๋๊ธฐ ์ฝ๋ค.
ํธ๋ฆฌ์์์ ๋น์ฉํจ์
- ๋ถ์๋(Impurity) : ์ง๋๋ถ์๋, ์ํธ๋กํผ / Information gain์ ๋ํ ๊ฐ๋ !
ํธ๋ฆฌ๋ชจ๋ธ์ ๋ ธ๋์์์ ์๊ฐ ์๊ฐ์ ์ต์ ์ธ๋ฐ ํธ๋ฆฌ ์ ์ฒด๋ฅผ ๋๊ณ ๋ณผ ๋๋ ์ต์ ์ด ์๋ ์ ์๋ค. -> ์๊ฐํด๋ณผ ๋ฌธ์
ํ์ดํ๋ผ์ธ
- ํน์ง : ๊ฐ๊ฒฐํจ, ์ ์ฒ๋ฆฌ์ ๋ชจ๋ธ๋ง์ ์ด์ด์ ์๊ฐํ ์ ์์, ํ์ ์์๋ ์ค์
ํน์ฑ ์ค์๋
- ํน์ฑ์ด ๋ ธ๋์ ๊ฐ์ ํ ์ ๋์ ๋ฐ๋ผ ์ผ๋ง๋ ์ค์ํ์ง
๊ฒฐ์ ํธ๋ฆฌ๋ ํน์ฑ ์ํธ์์ฉ(๋ค์ค๊ณต์ ์ฑ)์ ๋ฏผ๊ฐํ์ง ์๋ค.
๊ฒฐ์ ํธ๋ฆฌํ๊ท -> ๊ฐ ๋ ธ๋์์ mse๋ฅผ ์ ์ผ ์๊ฒํ๋ ์ํ๋ค์ ํ๊ฒ ํ๊ท ๊ฐ
๋๋คํฌ๋ ์คํธ
- ํธ๋ฆฌ ์ฌ๋ฌ๊ฐ๋ฅผ ๋ชจ์์ ๋ง๋ ๋ชจ๋ธ
- ๋จ์ผํธ๋ฆฌ๋ชจ๋ธ์ ๋นํด์ ๊ณผ์ ํฉ์ ๋ฐฉ์ง(์ผ๋ฐํํ๊ธฐ ๋ ์ข๋ค.)
Bagging ๊ณผ์ ์ด ์ด๋ป๊ฒ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์๋๊ฐ?
- Out Of Bag samples : ๋ถํธ์คํธ๋ฉ ์ํ๋ง ์ค ์๋ฝํ ์ํ๋ค, ๋ฐ๋ก ๊ฒ์ฆ set์ ๋๊ธฐ ์ด๋ ค์ธ ๋, oob_score_ ์ฌ์ฉ
Ordinal Encoding
- ๋ฒ์ฃผํ์ ์์ํ ์ซ์๋ฅผ ๋ถ์ฌ
- ํธ๋ฆฌ๋ชจ๋ธ์ ๋ช
๋ชฉํ ํน์ฑ์(์์๊ฐ ์์ผ๋ฉด ์๋๋) ์์๊ฐ ๋ถ์ฌ๋์ด๋ ํฌ๊ฒ ๋ฌธ์ ๊ฐ ์๋ค.(์๊ณ ๋ฆฌ์ฆ ์์ฒด๊ฐ ๋ถํ ํด๋์๊ฐ๋ ๋ฐฉ์์ด๋ผ)
Q. ๋ค๋ง ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ๋ฑ์ ํตํด ๋ ธ๋๊ฐ ์ ํ๋๋ค๋ฉด, ์์์ ๋ถ์ฌ๋ ์๋ชป๋ ๊ฒฝํฅ์ฑ์ด ์ํฅ์ ์ค ์ ์์ง ์์๊น?
์์๋ธํธ๋ฆฌ๋ชจ๋ธ(๋๋คํฌ๋ ์คํธ)์ด ๋จ์ผํธ๋ฆฌ๋ชจ๋ธ๋ณด๋ค ์๋์ ์ผ๋ก ๊ณผ์ ํฉ์ ํผํ ์ ์๋ ์ด์ ?
- ๋๋คํฌ๋ ์คํธ์ ๋๋ค์ฑ
- ๋ถํธ์คํธ๋ฉ ์ํ๋ง ์ ๋ฐ์ดํฐ๋ฅผ ๋ณต์ ์ถ์ถ
- ๊ฐ๊ฐ ํธ๋ฆฌ๋ ๋ฌด์์๋ก ์ ํ๋ ํน์ฑ๋ค๋ง ์ด์ฉํ์ฌ ๋ถ๊ธฐ
Confusion Matrix
- ํด๋์ค๋ค์ label์ด ๋ถ๊ท ์ผํ ๋ Precision(์ ๋ฐ๋), Recall(์ฌํ์จ ; sensitivity) ๋ฑ์ ์ ์ ํ ๊ฐ์ค์น๋ฅผ ์ค์ ์๊ฐํด์ผํ๋ค.
ex) ์์ ๊ฑธ๋ ธ๋์ง ์์ธกํ๋ ๊ฒฝ์ฐ, ์ค์ ๋ก ์์ ์๊ฑธ๋ฆฐ ์ฌ๋๋ค์ ๋ฐ์ดํฐ๊ฐ ๊ฑธ๋ฆฐ ์ฌ๋๋ค๋ณด๋ค ํจ์ฌ ๋ง์ํ ๋ FP๊ฐ ์๋์ ์ผ๋ก FN๋ณด๋ค ๋ง์์ ๋ฐ์ ์์
ROC curve, AUC
- threshold(์๊ณ๊ฐ) ์ ํ ๋ ์ ์ฉํ๋ค.
- Curve๋ฅผ ๊ทธ๋ ค์ ๊ผญ threshold๋ฅผ ์ฐพ๋ ๊ณณ์ ์ฌ์ฉํ๋ ๊ฒ์ ์๋๋ค!
- y์ถ์ด tpr, x์ถ์ด fpr์ธ ์ ๋ค์ ํ๋ฒ ์ ์
Model Selection
- ๊ธฐ๋ณธ ๋ชจ๋ธ ์๊ณ ๋ฆฌ์ฆ์ด ๊ฐ์๋, ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ, ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด๋ค.
Cross Validation
- ๊ต์ฐจ ๊ฒ์ฆ
GridSearchCV, RandomizedSearchCV
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL]34.Data Wrangling (0) | 2022.01.03 |
---|---|
[TIL]33.Choose your ML problems (0) | 2022.01.01 |
[TIL]31.Model Selection(๋ชจ๋ธ ์ ํ) (0) | 2021.12.30 |
[TIL]30.Evaluation Metrics for Classification(Precision, Recall, f1score, threshold, ROC curve, AUC) (0) | 2021.12.29 |
[TIL]29.RandomForest(๋๋คํฌ๋ ์คํธ) (0) | 2021.12.27 |