Jayden`s
[TIL]33.Choose your ML problems
๋ชฉํ ์์ธก๋ชจ๋ธ์ ์ํ ํ ๊ฐ์ ์ ํ, ๊ทธ ๋ถํฌ๋ฅผ ํ์ธ train/val set ์ฌ์ด ๋๋ target/features ์ฌ์ด์ ์ผ์ด๋๋ ์ ๋ณด ๋์ถ(leakage) ์๋ฐฉ ์ํฉ์ ๋ง๋ ๊ฒ์ฆ ์งํ(metrics; ํ๊ฐ์งํ) ์ฌ์ฉ ๋ฐ์ดํฐ ๊ณผํ์ ์ค๋ฌด ํ๋ก์ธ์ค ๋น์ฆ๋์ค ๋ฌธ์ ์ค๋ฌด์๋ค๊ณผ ๋ํ๋ฅผ ํตํด ๋ฌธ์ ๋ฐ๊ฒฌ ๋ฐ์ดํฐ ๋ฌธ์ ๋ฌธ์ ์ ๊ด๋ จ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๊ฒฌ ๋ฐ ์์ง ๋ฐ์ดํฐ ๋ฌธ์ ํด๊ฒฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ, ์๊ฐํ ๋จธ์ ๋ฌ๋, ํต๊ณ ๋น์ฆ๋์ค ๋ฌธ์ ํด๊ฒฐ ๋ฐ์ดํฐ ๋ฌธ์ ํด๊ฒฐ์ ํตํด ์ค๋ฌด์๋ค๊ณผ ๋น์ฆ๋์ค ๋ฌธ์ ํด๊ฒฐ ํ๊ฒ ์ ์ ๋ฐ ๊ทธ ๋ถํฌ ํ์ธ ์ง๋ํ์ต(Supervised learning)์์ ์์ธกํ ํ๊ฒ์ ์ ์ ํ๊ฒ์ ๋ฐ๋ผ ํ๊ท(Regression) / ๋ถ๋ฅ(Classification) ๋ฌธ์ ๊ตฌ๋ถ ๊ตฌ๋ถ์ด ์ด๋ ค์ด ๊ฒฝ์ฐ๋ ์กด์ฌ ๋ํ, ์ด์ฐํ, ์์ํ..
HyperParameter tuning
GridSearchCV ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ์งํํฉ๋๋ค. ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๊ฐ๋ฅํ ์๋๋ฅผ ๋ค ํด๋ณด์ธ์. ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์ ์ ๊ฐ์ฅ ํฐ ์ํฅ์ ์ค ํน์ฑ๊ณตํ์ด๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ๋ํด์ ์ ์ฑ๋ฅ ๊ฐ์ ์ ํฐ ์ํฅ์ ์ฃผ์๋์ง ์ค๋ช ํด ๋ณด์๊ณ ์๋ก์ ๊ฒฐ๊ณผ์ ๋ํด ๊ณต์ ํ๊ณ ํ ๋ก ํด ๋ณด์ธ์. Ordinal Encoder ์ฌ์ฉ 1-1. RandomizedSearchCV : GridSearchCV๋ฅผ ํ๊ธฐ ์ ์ ๋นํ ๋ฒ์๋ฅผ ์ฐพ๊ธฐ ์ํด ์คํํ์์ต๋๋ค. cross_val_score๋ฅผ ํตํด cv = 5๋ก ์ ์ ํ์์ต๋๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ์์ ๊ฒฐ๊ณผ์์ ๋๋ต์ ์ผ๋ก GridSearchCV์ ๋ฃ์ด์ค ์ซ์๋ฅผ ์๊ฐํด ๋ณผ ์ ์์ต๋๋ค. 1-2. GridSearchCV : ์์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ์ฝ๊ฐ์ ์ฐจ์ด๋ฅผ ์ฃผ๋ฉฐ ์ต์ ์ ํ..
Evaluation metrics for Classification
confusion matrix, classification report ๋ฑ์ ๊ทธ๋ ค ๋ณด์๊ณ , ๊ฐ ํ๊ฐ์งํ๋ค์ ๋ํด ์ต๋ํ ๋ถ์ํ๊ณ ๋ฌด์์ด ๋ถ์กฑํ์ง ์ด๋ค ๋ฐฉํฅ์ผ๋ก ์ฑ๋ฅ์ ๋์ฌ์ผ ํ ์ง ๋ ผ์ํด ๋ณด์ธ์. ๋ถ๋ฅ ๋ฌธ์ ์ ํ๊ฐ ์งํ accuracy(์ ํ๋) f1_score precision(์ ๋ฐ๋) recall(์ฌํ์จ ; sensitivity) ROC curve ๋ฐ AUC score accuracy(์ ํ๋) f1_score precision ๋ฐ recall - classification_report train set val set confusion matrix train set val set ROC curve ๋ฐ AUC train set val set train set vs val set ๋น์ฐํ ๊ฒฐ๊ณผ๊ฒ ์ง๋ง, ์ฌ๋ฌ์งํ..
[TIL]32.Section2 Sprint2 Chall(Sprint2 ํค์๋ ์ค์ฌ ์ ๋ฆฌ)
์์ผ๋ก๋ ์คํ๋ฆฐํธ ์ฑ๋ฆฐ์ง ์ดํ wrap up ๋ด์ฉ์ ์์ฝํ๋ ค ํฉ๋๋ค. ํธ๋ฆฌ๋ชจ๋ธ ์ ํ๋ชจ๋ธ๋ณด๋ค ์ค์ผ์ผ๋ง์ ๋น๊ต์ ๋ ๋ฏผ๊ฐํ๊ณ ์ ์ฉ ์ ์ฌ๋ฌ ๊ฐ์ ์ ๋น๊ต์ ์์ ๋ก์(ํ๋น์ฑ์ ์ํ ๊ฐ์ ์ ๋ ๊ฒ ๋ณ๋ก ์๋ค.) ๊ณผ์ ํฉ๋๊ธฐ ์ฝ๋ค.(๋จ, ์ด๋์ ๋ ๊ณผ์ ํฉ์ด ํต์ ๊ฐ ๋๋ค๋ฉด ์์ ํ์ต์ด ์๋๋ ๊ฒฝ์ฐ๋ณด๋จ ๋ซ๋ค.) ์ฌ์ค ์คํ๋ ค ๋ฐ์ ํ ๋ชจ๋ธ์ผ์๋ก ํ์ต์ ๋๋ฌด ์ํด์ ๊ณผ์ ํฉ๋๊ธฐ ์ฝ๋ค. ํธ๋ฆฌ์์์ ๋น์ฉํจ์ ๋ถ์๋(Impurity) : ์ง๋๋ถ์๋, ์ํธ๋กํผ / Information gain์ ๋ํ ๊ฐ๋ ! ํธ๋ฆฌ๋ชจ๋ธ์ ๋ ธ๋์์์ ์๊ฐ ์๊ฐ์ ์ต์ ์ธ๋ฐ ํธ๋ฆฌ ์ ์ฒด๋ฅผ ๋๊ณ ๋ณผ ๋๋ ์ต์ ์ด ์๋ ์ ์๋ค. -> ์๊ฐํด๋ณผ ๋ฌธ์ ํ์ดํ๋ผ์ธ ํน์ง : ๊ฐ๊ฒฐํจ, ์ ์ฒ๋ฆฌ์ ๋ชจ๋ธ๋ง์ ์ด์ด์ ์๊ฐํ ์ ์์, ํ์ ์์๋ ์ค์ ํน์ฑ ์ค์๋ ํน์ฑ์ด ๋ ธ๋์ ๊ฐ..
[TIL]31.Model Selection(๋ชจ๋ธ ์ ํ)
๋ชฉํ Model Selection(๋ชจ๋ธ ์ ํ)์ ์ํ Cross Validation(๊ต์ฐจ๊ฒ์ฆ) ๋ฐฉ๋ฒ ์ดํด ๋ฐ ํ์ฉ Hyperparameter๋ฅผ ์ต์ ํํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์ Cross-Validation(๊ต์ฐจ๊ฒ์ฆ) Hold-Out ๊ต์ฐจ๊ฒ์ฆ : train/validate/test set์ผ๋ก ๋๋ ํ์ต์ ์งํ train set์ ํฌ๊ธฐ๊ฐ ์์ ๋๋ val set์ ๋ฐ๋ก ๋ถ๋ฆฌํ๋ ๊ฒ์ด ๋ถ๋ด์ด ๋ ์ ์์ต๋๋ค. ์ต์ง๋ก val set์ ๋ฐ๋ก ์ถ์ถํด๋ ์์ธก ์ฑ๋ฅ์ ๋ํ ์ถ์ ์ด ๋ถ์ ํํ ํ๋ฅ ์ด ๋์ต๋๋ค. K-fold ๊ต์ฐจ๊ฒ์ฆ : ๋ฐ์ดํฐ๋ฅผ k๊ฐ๋ก ๋ฑ๋ถํ๊ณ k๊ฐ์ ์งํฉ์์ k-1๊ฐ๋ train set, 1๊ฐ๋ val set์ผ๋ก ์ฌ์ฉํ์ฌ k๋ฒ ํ์ตํ๋ ๋ฐฉ๋ฒ ์์ Hold-Out ๋ฐฉ๋ฒ์ ๋จ์ ์ ๊ทน๋ณตํ ์ ์์ต๋๋ค. ์ด๋ค ํ์ต ..