Jayden`s

    [TIL]36_Interpreting ML Model

    ๋ชฉํ‘œ PDP(Partial Dependence Plot; ๋ถ€๋ถ„์˜์กดํ”Œ๋ž) ์‹œ๊ฐํ™” ๋ฐ ํ•ด์„ SHAP value plots๋ฅผ ์‚ฌ์šฉํ•ด ๊ฐœ๋ณ„ ์˜ˆ์ธก ์‚ฌ๋ก€๋ฅผ ์„ค๋ช… PDP(Partail Dependence Plots) ํŠน์ • ํŠน์„ฑ์— ๋Œ€ํ•ด ๊ทธ ๊ฐ’์„ ์ƒ˜ํ”Œ๋“ค์ด ๊ฐ–๊ณ  ์žˆ๋Š” ๊ฐ’๋“ค๋กœ ์ตœ์†Œ์—์„œ ์ตœ๋Œ€๊นŒ์ง€ ๋ฐ”๊พธ์–ด ๊ฐ€๋ฉฐ ํƒ€๊ฒŸ๊ฐ’์„ ์˜ˆ์ธกํ•ด๋ณด๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. train set์— ๋Œ€ํ•ด ํ•™์Šต๋œ ๋ชจ๋ธ์ด ์žˆ์–ด์•ผํ•˜๊ณ  val ๋˜๋Š” test set์— ๋Œ€ํ•ด์„œ PDP๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ, ๋ถ€์ŠคํŒ…๊ณผ ๊ฐ™์€ ์•™์ƒ๋ธ” ๋ชจ๋ธ์€ ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€์ง€๋งŒ ์„ ํ˜• ๋ชจ๋ธ์— ๋น„ํ•ด ํ•ด์„ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๋ชจ๋ธ : ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ต์ง€๋งŒ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ : ์ดํ•ดํ•˜๊ธฐ ์‰ฝ์ง€๋งŒ ์„ฑ๋Šฅ์ด ๋ถ€์กฑ ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ, ๋ถ€์ŠคํŒ…์˜ ๊ฒฝ์šฐ ์‰ฝ๊ฒŒ ํŠน์„ฑ์ค‘์š”๋„(feature importance)๋ฅผ ์–ป์„..

    [TIL]35.Feature Importance

    ๋ชฉํ‘œ ํŠน์„ฑ ์ค‘์š”๋„ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•๋“ค ์ดํ•ด ๋ฐ ๋ชจ๋ธ ํ•ด์„์— ํ™œ์šฉ Boosting์— ๋Œ€ํ•œ ์ดํ•ด ๋ฐ ๋ชจ๋ธ ํ•™์Šต ํŠน์„ฑ ์ค‘์š”๋„ Feature Importance(Mean Decrease Impurity ; MDI) sklearn ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ถ„๋ฅ˜๊ธฐ์—์„œ ๊ธฐ๋ณธ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฐ๊ฐ์˜ ํŠน์„ฑ์„ ๋ชจ๋“  ํŠธ๋ฆฌ์— ๋Œ€ํ•ด ํ‰๊ท  ๋ถˆ์ˆœ๋„ ๊ฐ์†Œ(MDI)๋ฅผ ๊ณ„์‚ฐํ•œ ๊ฐ’์ž…๋‹ˆ๋‹ค. ๋ถˆ์ˆœ๋„ ๊ฐ์†Œ(impurity decrease)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค: $$\displaystyle \frac{N_t}{N}$ * (impurity - \displaystyle\frac{N_{tR}}{N_t} * Rightimpurity - \displaystyle\frac{N_{tL}}{N_t}$ * Leftimpurity)$$ $$N: ์ „์ฒด ๊ด€์ธก์น˜ ์ˆ˜, N_..

    Data Wrangling

    Data Wrangling ์˜๋ฏธ raw data๋ฅผ ๋” ์†์‰ฝ๊ฒŒ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋ฐ”๊พธ๋Š” ๋ชจ๋“  ๊ณผ์ •์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.(Data cleaning, Data remediation, Data munging ์ด๋ผ๊ณ  ๋ถˆ๋ฆฌ๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.) ๊ตฌ์„ฑ(๋‹จ๊ณ„) Discovery(๋ฐœ๊ฒฌ) ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์นœ์ˆ™ํ•ด์ง€๋Š” ๋‹จ๊ณ„๋กœ, EDA ๋‹จ๊ณ„์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ, ํ†ต๊ณ„์น˜ ๋“ฑ์„ ์‚ดํŽด๋ณด๋ฉฐ ๋ฐฉํ–ฅ์„ ์žก๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. Structuring(๊ตฌ์กฐํ™”) ์ผ๋ฐ˜์ ์ธ raw data๋Š” ๋ฐ”๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ํž˜๋“ค๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ๊ฐ์˜ raw data๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ์กฐํ•ฉํ•˜์—ฌ ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์„ ์–ป๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์˜ค๋Š˜ ์ €ํฌ๊ฐ€ ๋ฐฐ์šด merge, groupby ๋“ฑ์„ ์ด์šฉํ•œ ํŠน์„ฑ ์ƒ์„ฑ ๋ฐ ์ •๋ฆฌ๊ฐ€ ์ด ๋‹จ๊ณ„์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. Cleaning(์ฒญ์†Œ) ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์žˆ์–ด ์˜ํ–ฅ์„ ์ฃผ๋Š” ์˜ค๋ฅ˜๋ฅผ ์ œ๊ฑฐ..

    [TIL]34.Data Wrangling

    ๋ชฉํ‘œ ์ง€๋„ํ•™์Šต ๋ชจ๋ธ์„ ์œ„ํ•œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ ์ง€๋„ํ•™์Šต์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง ์ดํ•ด ๋ฐ ์ ์ ˆํ•œ ํŠน์„ฑ ์ƒ์„ฑ ๋ฐ์ดํ„ฐ ํ™•์ธ EDA๋ฅผ ํ†ตํ•ด ๊ฐ ํŒŒ์ผ๋“ค ๋ฐ ํŠน์„ฑ๋“ค์„ ์กฐ์‚ฌํ•˜๊ณ  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค. ๋ณดํ†ต ๋ฐ์ดํ„ฐํŒŒ์ผ์€ ์—ฌ๋Ÿฌ ์ปฌ๋Ÿผ๋“ค์˜ ์กฐํ•ฉ์œผ๋กœ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ฐ์ดํ„ฐ ๋ฒ ์ด์Šค์— ์ €์žฅ๋ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ํŒŒ์ผ์„ ๋ถˆ๋Ÿฌ์™€ ์„œ๋กœ์˜ ์—ฐ๊ฒฐ๋˜๋Š” ์ปฌ๋Ÿผ์ด ์žˆ์œผ๋ฉด merge๋ฅผ ์ด์šฉํ•ด ๋ชฉ์ ์— ๋งž๊ฒŒ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. train ๋ฐ test(ํ˜น์€ val) set์ด ์™„์ „ํžˆ ๋ถ„๋ฆฌ๋˜์–ด์žˆ๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์‹œ set(orders[orders['eval_set']=='test']['user_id'])\ .isdisjoint(set(orders[orders['eval_set']=='train']['user_id..

    ๋ฐ์ดํ„ฐ ์ง๋ฌด ๊ฐ„๋‹จ ์ •๋ฆฌ(๋น…๋ฐ์ดํ„ฐ ์ปค๋ฆฌ์–ด ๊ฐ€์ด๋“œ๋ถ ์ฐธ๊ณ )

    ์‹ค๋ฌด์—์„œ ๋ฐ์ดํ„ฐ๋ถ„์„๊ฐ€/๋ฐ์ดํ„ฐ์—”์ง€๋‹ˆ์–ด/๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ์—๊ฒŒ ์ค‘์š”ํ•œ ์—ญ๋Ÿ‰์ด ๋ฌด์—‡์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉฐ, ์–ด๋–ค ์–ด๋ ค์›€์„ ๊ฒช๊ฒŒ ๋  ๊ฒƒ ๊ฐ™์€์ง€์™€ ์–ด๋–ค ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•  ์ง€ ๋…ผ์˜ํ•ด ๋ณด์„ธ์š”. ๋˜ํ•œ, ์„น์…˜2 ํ”„๋กœ์ ํŠธ์— ์•ž์„œ ๋ณธ์ธ์ด ์–ป๊ณ ์ž ํ•˜๋Š” ์ ์ด๋‚˜ ๋‹ค์ง ๋“ฑ์„ ์„œ๋กœ ๊ณต์œ ํ•ด ๋ณด์„ธ์š”. ๋ฐ์ดํ„ฐ ์ง๋ฌด ๋ถ„๋ฅ˜(์œ„์˜ ์งˆ๋ฌธ์„ ๊ธฐ์ค€์œผ๋กœ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.) ์ข€๋” ์ž์„ธํ•œ ๋‚ด์šฉ์€ ๋” ์ฐพ์•„๋ด์•ผ๊ฒ ์ง€๋งŒ, ๋Œ€๋žต์ ์œผ๋กœ๋‚˜๋งˆ ์ง๋ฌด๋ณ„ ์—ญ๋Ÿ‰ ๊ทธ๋ฆฌ๊ณ  ์–ด๋–ค ์–ด๋ ค์›€์ด ์žˆ์„์ง€ ๋“ฑ์„ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€(Data Analyst) ๋ฐ์ดํ„ฐ์—์„œ ๊ธฐ์—…์˜ ํ˜„์žฌ ์ƒํƒœ์™€ ๊ด€๋ จ๋œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•˜๊ณ  ๊ฒฝ์˜์ง„์—๊ฒŒ ํšจ์œจ์ ์œผ๋กœ ์ „๋‹ฌํ•˜๋Š” ์—…๋ฌด๋ฅผ ๋‹ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ธ์‚ฌ์ดํŠธ๋ž€ '๊ฐœ์„ ํ•ด์•ผ ํ•  ๋ฌธ์ œ๋ฅผ ์ฐพ์•„๋‚ด๊ณ  ์ด๋ฅผ ํ•ด๊ฒฐํ•  ์•„์ด๋””์–ด๋ฅผ ์ƒ๊ฐํ•ด๋‚ด๋Š” ๊ฒƒ'์ž…๋‹ˆ๋‹ค. ์ฃผ๋กœ ๊ฐ„๋‹จํ•œ..