Jayden`s
[TIL]36_Interpreting ML Model
๋ชฉํ PDP(Partial Dependence Plot; ๋ถ๋ถ์์กดํ๋) ์๊ฐํ ๋ฐ ํด์ SHAP value plots๋ฅผ ์ฌ์ฉํด ๊ฐ๋ณ ์์ธก ์ฌ๋ก๋ฅผ ์ค๋ช PDP(Partail Dependence Plots) ํน์ ํน์ฑ์ ๋ํด ๊ทธ ๊ฐ์ ์ํ๋ค์ด ๊ฐ๊ณ ์๋ ๊ฐ๋ค๋ก ์ต์์์ ์ต๋๊น์ง ๋ฐ๊พธ์ด ๊ฐ๋ฉฐ ํ๊ฒ๊ฐ์ ์์ธกํด๋ณด๋ ๋ฐฉ๋ฒ์ ๋๋ค. train set์ ๋ํด ํ์ต๋ ๋ชจ๋ธ์ด ์์ด์ผํ๊ณ val ๋๋ test set์ ๋ํด์ PDP๋ฅผ ์งํํฉ๋๋ค. ๋๋คํฌ๋ ์คํธ, ๋ถ์คํ ๊ณผ ๊ฐ์ ์์๋ธ ๋ชจ๋ธ์ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง์ง๋ง ์ ํ ๋ชจ๋ธ์ ๋นํด ํด์ํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๋ณต์กํ ๋ชจ๋ธ : ์ดํดํ๊ธฐ ์ด๋ ต์ง๋ง ์ฑ๋ฅ์ด ์ฐ์ ๋จ์ํ ๋ชจ๋ธ : ์ดํดํ๊ธฐ ์ฝ์ง๋ง ์ฑ๋ฅ์ด ๋ถ์กฑ ๋๋คํฌ๋ ์คํธ, ๋ถ์คํ ์ ๊ฒฝ์ฐ ์ฝ๊ฒ ํน์ฑ์ค์๋(feature importance)๋ฅผ ์ป์..
[TIL]35.Feature Importance
๋ชฉํ ํน์ฑ ์ค์๋ ๊ณ์ฐ ๋ฐฉ๋ฒ๋ค ์ดํด ๋ฐ ๋ชจ๋ธ ํด์์ ํ์ฉ Boosting์ ๋ํ ์ดํด ๋ฐ ๋ชจ๋ธ ํ์ต ํน์ฑ ์ค์๋ Feature Importance(Mean Decrease Impurity ; MDI) sklearn ํธ๋ฆฌ ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ์์ ๊ธฐ๋ณธ์ผ๋ก ์ฌ์ฉ๋๋ ๊ณ์ฐ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ๊ฐ์ ํน์ฑ์ ๋ชจ๋ ํธ๋ฆฌ์ ๋ํด ํ๊ท ๋ถ์๋ ๊ฐ์(MDI)๋ฅผ ๊ณ์ฐํ ๊ฐ์ ๋๋ค. ๋ถ์๋ ๊ฐ์(impurity decrease)๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐํฉ๋๋ค: $$\displaystyle \frac{N_t}{N}$ * (impurity - \displaystyle\frac{N_{tR}}{N_t} * Rightimpurity - \displaystyle\frac{N_{tL}}{N_t}$ * Leftimpurity)$$ $$N: ์ ์ฒด ๊ด์ธก์น ์, N_..
Data Wrangling
Data Wrangling ์๋ฏธ raw data๋ฅผ ๋ ์์ฝ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํ ํํ๋ก ๋ฐ๊พธ๋ ๋ชจ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค.(Data cleaning, Data remediation, Data munging ์ด๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํฉ๋๋ค.) ๊ตฌ์ฑ(๋จ๊ณ) Discovery(๋ฐ๊ฒฌ) ๋ฐ์ดํฐ์ ๋ํด ์น์ํด์ง๋ ๋จ๊ณ๋ก, EDA ๋จ๊ณ์ ๊ฐ์ด ๋ฐ์ดํฐ์ ํน์ฑ, ํต๊ณ์น ๋ฑ์ ์ดํด๋ณด๋ฉฐ ๋ฐฉํฅ์ ์ก๋ ๋จ๊ณ์ ๋๋ค. Structuring(๊ตฌ์กฐํ) ์ผ๋ฐ์ ์ธ raw data๋ ๋ฐ๋ก ์ฌ์ฉํ๊ธฐ ํ๋ค๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฐ์ raw data๋ฅผ ์ ์ ํ๊ฒ ์กฐํฉํ์ฌ ์ํ๋ ๋ฐ์ดํฐํ๋ ์์ ์ป๋ ๋จ๊ณ์ ๋๋ค. ์ค๋ ์ ํฌ๊ฐ ๋ฐฐ์ด merge, groupby ๋ฑ์ ์ด์ฉํ ํน์ฑ ์์ฑ ๋ฐ ์ ๋ฆฌ๊ฐ ์ด ๋จ๊ณ์ ํด๋นํฉ๋๋ค. Cleaning(์ฒญ์) ๋ฐ์ดํฐ ๋ถ์์ ์์ด ์ํฅ์ ์ฃผ๋ ์ค๋ฅ๋ฅผ ์ ๊ฑฐ..
[TIL]34.Data Wrangling
๋ชฉํ ์ง๋ํ์ต ๋ชจ๋ธ์ ์ํ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฑ ์ง๋ํ์ต์ ์ํ ๋ฐ์ดํฐ ์์ง๋์ด๋ง ์ดํด ๋ฐ ์ ์ ํ ํน์ฑ ์์ฑ ๋ฐ์ดํฐ ํ์ธ EDA๋ฅผ ํตํด ๊ฐ ํ์ผ๋ค ๋ฐ ํน์ฑ๋ค์ ์กฐ์ฌํ๊ณ ๋ฐ์ดํฐ์ ๋ํด ํ์ ํฉ๋๋ค. ๋ฐ์ดํฐํ๋ ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ดํด๋ด ๋๋ค. ๋ณดํต ๋ฐ์ดํฐํ์ผ์ ์ฌ๋ฌ ์ปฌ๋ผ๋ค์ ์กฐํฉ์ผ๋ก ๋ค์ํ๊ฒ ๋ฐ์ดํฐ ๋ฒ ์ด์ค์ ์ ์ฅ๋ฉ๋๋ค. ๋ค์ํ ํ์ผ์ ๋ถ๋ฌ์ ์๋ก์ ์ฐ๊ฒฐ๋๋ ์ปฌ๋ผ์ด ์์ผ๋ฉด merge๋ฅผ ์ด์ฉํด ๋ชฉ์ ์ ๋ง๊ฒ ์๋ก์ด ๋ฐ์ดํฐํ๋ ์์ ๋ง๋ญ๋๋ค. train ๋ฐ test(ํน์ val) set์ด ์์ ํ ๋ถ๋ฆฌ๋์ด์๋์ง ํ์ธํฉ๋๋ค. ์์ set(orders[orders['eval_set']=='test']['user_id'])\ .isdisjoint(set(orders[orders['eval_set']=='train']['user_id..
๋ฐ์ดํฐ ์ง๋ฌด ๊ฐ๋จ ์ ๋ฆฌ(๋น ๋ฐ์ดํฐ ์ปค๋ฆฌ์ด ๊ฐ์ด๋๋ถ ์ฐธ๊ณ )
์ค๋ฌด์์ ๋ฐ์ดํฐ๋ถ์๊ฐ/๋ฐ์ดํฐ์์ง๋์ด/๋ฐ์ดํฐ์ฌ์ด์ธํฐ์คํธ์๊ฒ ์ค์ํ ์ญ๋์ด ๋ฌด์์ด๋ผ๊ณ ์๊ฐํ๋ฉฐ, ์ด๋ค ์ด๋ ค์์ ๊ฒช๊ฒ ๋ ๊ฒ ๊ฐ์์ง์ ์ด๋ค ๋ฅ๋ ฅ์ด ํ์ํ ์ง ๋ ผ์ํด ๋ณด์ธ์. ๋ํ, ์น์ 2 ํ๋ก์ ํธ์ ์์ ๋ณธ์ธ์ด ์ป๊ณ ์ ํ๋ ์ ์ด๋ ๋ค์ง ๋ฑ์ ์๋ก ๊ณต์ ํด ๋ณด์ธ์. ๋ฐ์ดํฐ ์ง๋ฌด ๋ถ๋ฅ(์์ ์ง๋ฌธ์ ๊ธฐ์ค์ผ๋ก ์์ฑํ์์ต๋๋ค.) ์ข๋ ์์ธํ ๋ด์ฉ์ ๋ ์ฐพ์๋ด์ผ๊ฒ ์ง๋ง, ๋๋ต์ ์ผ๋ก๋๋ง ์ง๋ฌด๋ณ ์ญ๋ ๊ทธ๋ฆฌ๊ณ ์ด๋ค ์ด๋ ค์์ด ์์์ง ๋ฑ์ ํ๋จํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ๋ฐ์ดํฐ ๋ถ์๊ฐ(Data Analyst) ๋ฐ์ดํฐ์์ ๊ธฐ์ ์ ํ์ฌ ์ํ์ ๊ด๋ จ๋ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๊ณ ๊ฒฝ์์ง์๊ฒ ํจ์จ์ ์ผ๋ก ์ ๋ฌํ๋ ์ ๋ฌด๋ฅผ ๋ด๋นํฉ๋๋ค. ์ฌ๊ธฐ์ ์ธ์ฌ์ดํธ๋ '๊ฐ์ ํด์ผ ํ ๋ฌธ์ ๋ฅผ ์ฐพ์๋ด๊ณ ์ด๋ฅผ ํด๊ฒฐํ ์์ด๋์ด๋ฅผ ์๊ฐํด๋ด๋ ๊ฒ'์ ๋๋ค. ์ฃผ๋ก ๊ฐ๋จํ..