Jayden`s

    [TIL]45.5_Section1_sprint1_๊ฐœ์ธ๋ณต์Šต(์ฃผ๋ง)

    Section1 spirnt1 ํ‚ค์›Œ๋“œ ์œ„์ฃผ ๊ฐ„๋‹จ ๋ณต์Šต EDA concat ๊ณผ merge : ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์น˜๋Š” ๋ฐฉ๋ฒ•์˜ ์ฐจ์ด๋ฅผ ๊ธฐ์–ตํ•˜๊ณ  ํŠนํžˆ merge์˜ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ• ๊ธฐ์–ตํ•˜๊ธฐ. df1.merge(df2, how=, on=) # ์ถ”๊ฐ€๋กœ ๊ฐ™์€ ์˜๋ฏธ์˜ ํŠน์„ฑ์ธ๋ฐ, ์ด๋ฆ„๋งŒ ๋‹ค๋ฅธ ๊ฒฝ์šฐ left_on= , right_on= ์œผ๋กœ ์ ๋Š” ๊ฒƒ ๊ธฐ์–ต) DataFrame conditioning(๋‹จ์ˆœํ•˜๊ฒŒ ๊ทธ๋ƒฅ ์กฐ๊ฑด ์ฃผ๋Š” ๊ฒƒ) ์„ ํ†ตํ•ด์„œ ์ž๋ฃŒ filter ์ฒ˜๋ฆฌ -> ์—ฐ์Šต ๊ณ„์†ํ•˜์ž. ๋ณดํ†ต df[df['A'] == 'a'] ํ•ด์„œ 'A' ํŠน์„ฑ์—์„œ 'a'๋ผ๋Š” ๊ฐ’์„ ๊ฐ–๋Š” row๋งŒ ๊ฐ€์ ธ์™”๋Š”๋ฐ, df.A.isin('a') ์™€ ๊ฐ™์ด ์ ๋Š” ๋ฐฉ๋ฒ•๋„ ์žˆ๋‹ค๋Š” ๊ฒƒ ์ˆ™์ง€ Groupby ๊ผญ๊ผญ ๊ทธ ๊ฐœ๋…๊ณผ ๋‚ด์šฉ ์ˆ™์ง€ํ•˜๊ธฐ!!! ๊ฐœ์ธ์ ์œผ๋กœ ํ”„๋กœ์ ํŠธํ•˜๋ฉด์„œ ํ™œ์šฉ๋„๊ฐ€ ์ •๋ง..

    [TIL]45_Section2_Review(2)

    Section2 sprint2 ํ‚ค์›Œ๋“œ ์ •๋ฆฌ Pipeline, named_steps ์ง€๋‹ˆ๋ถˆ์ˆœ๋„, ์—”ํŠธ๋กœํ”ผ, ํŠธ๋ฆฌ๋ชจ๋ธ : ๋น„์„ ํ˜•, ๋‹ค์ค‘๊ณต์„ ์„ฑ ๋ฐ์ดํ„ฐ์— ์œ ๋ฆฌ(๋ถ„๋ฅ˜ ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ) ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ : ๋ฐฐ๊น… -> ๋ถ€ํŠธ์ŠคํŠธ๋žฉ + ์–ด๊ทธ๋ฆฌ๊ฒŒ์ดํŒ… ๋ถ€ํŠธ์ŠคํŠธ๋žฉ : ๋ณต์›์ถ”์ถœ, OOb(Out Of bag) ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ์˜ ๋ฌด์ž‘์œ„์„ฑ 1. ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘(๊ด€์ธก์น˜ ๋ณต์›์ถ”์ถœ) 2. ๋ถ„๊ธฐ ์‹œ ํŠน์„ฑ ์„ ํƒ ๋žœ๋ค(log2 n ๊ฐœ) ํŠธ๋ฆฌ๊ธฐ๋ฐ˜ -> ์›ํ•ซ์ธ์ฝ”๋”ฉ ์ด์šฉ ์‹œ, ํŠน์„ฑ์˜ ์ค‘์š”๋„๊ฐ€ ๋ถ„์‚ฐ๋จ ๋”ฐ๋ผ์„œ ์ˆœ์„œํ˜• ์ธ์ฝ”๋”ฉ ์‚ฌ์šฉ ๊ถŒ์žฅ. (ํŠธ๋ฆฌ๊ธฐ๋ฐ˜์—์„  ๋ฒ”์ฃผ์˜ ์ˆœ์„œ๊ฐ€ ํฐ ์˜๋ฏธ X) ๊ต์ฐจ๊ฒ€์ฆ ์ตœ์ ํ™”(ํ›ˆ๋ จ ์…‹์— ์ž˜ fit๋˜๊ฒŒ), ์ผ๋ฐ˜ํ™”(๊ฒ€์ฆ, ํ…Œ์ŠคํŠธ ์ฆ‰ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์…‹์— ๋Œ€ํ•ด ์ข‹์€ ์„ฑ๋Šฅ ๋‚˜์˜ค๊ฒŒ) ์˜ค๋Š˜ section2 final wrap up์„ ์ง„ํ–‰ํ•˜์˜€๋Š”๋ฐ, ๋‹ค์Œ์— ๋ชจ๋“  ๋‚ด..

    [TIL]37_Section2_sprint3_challenge

    ๋ฐ์ดํ„ฐ ์ง๋ฌด ํ”„๋กœ์„ธ์Šค ์ •๋ณด ๋ˆ„์ˆ˜(Data Leakage) ๋ถˆ๊ท ํ˜•ํ•œ ๋ฐ์ดํ„ฐ(Imbalanced Data) - ๋ถ„๋ฅ˜ ๊ฐ ๋ชจ๋ธ์˜ weight ์ ์šฉ - ํšŒ๊ท€ right skewed -> log๋ณ€ํ™˜ left skewed -> exp๋ณ€ํ™˜ ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ left skewed์ธ ๊ฒฝ์šฐ๋Š” ๋“œ๋ฌผ๋‹ค Data Wrangling ํŠน์„ฑ ์ค‘์š”๋„ - Gini(MDI) - Permutation Boosting - Adaboost -Gradientboost - XGB -Light GB -Catboost ๋ชจ๋ธ ํ•ด์„ - Feature Importance - PDP isolate interact - SHAP

    Boosting(vs bagging)

    1. ํŠน์„ฑ ์ค‘์š”๋„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ์žฅ๋‹จ์ ์„ ์„ค๋ช…ํ•˜๊ณ  ๊ฐ๊ฐ ์–ด๋–ค ์ƒํ™ฉ์— ์‚ฌ์šฉํ•˜๋ฉด ์ข‹์„์ง€ ์„ค๋ช…ํ•ด ๋ณด์„ธ์š”. ์—ฌ๊ธฐ๋กœ 2. bagging๊ณผ boosting์˜ ์ฐจ์ด์ ๊ณผ ๊ฐ๊ฐ ์–ด๋–ค ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ข…๋ฅ˜๋“ค์ด ์žˆ๋Š”์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณ„ ์žฅ๋‹จ์ ์„ ์„ค๋ช…ํ•˜๊ณ , ์–ด๋–ค ์ƒํ™ฉ์—์„œ ์‚ฌ์šฉํ•˜๋ฉด ์ข‹์„์ง€ ๋…ผ์˜ํ•ด ๋ณด์„ธ์š”. bagging vs boosting์˜ ์ฐจ์ด ๋ฐฐ๊น… : ๋ณ‘๋ ฌ ํ•™์Šต, ๊ฐ๊ฐ์˜ ํŠธ๋ฆฌ๋“ค์ด ๋…๋ฆฝ์  ๋ถ€์ŠคํŒ… : ์ˆœ์ฐจ ํ•™์Šต(์ง๋ ฌ), ๋’ค์˜ ํŠธ๋ฆฌ๊ฐ€ ์ด์ „ ํŠธ๋ฆฌ์˜ ์˜ํ–ฅ์„ ๋ฐ›์Œ(์ข…์†) ์˜ค๋‹ต์— ๋Œ€ํ•ด์„œ ๋” ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•จ์œผ๋กœ ์จ ์˜ค๋‹ต์— ๋” ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋งŒํผ ๋ฐฐ๊น…์— ๋น„ํ•ด error๊ฐ€ ์ ๊ณ  ์„ฑ๋Šฅ์ด ์ข‹์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์˜ค๋‹ต์— ๋” ์ง‘์ค‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์˜ค๋ฒ„ ํ”ผํŒ…๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•˜๊ฒŒ ์ƒ๊ฐํ•  ์ˆ˜๋Š” ์—†์ง€๋งŒ, ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐœ๋ณ„ ๊ฒฐ์ • ํŠธ๋ฆฌ(๊ธฐ๋ณธ๋ชจ๋ธ)์˜ ์„ฑ๋Šฅ์ด ๋‚ฎ๋‹ค๋ฉด ..

    Model Interpreting

    ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ํ•ด์„ ๋ฐฉ๋ฒ•๋“ค์˜ ์žฅ๋‹จ์ ๊ณผ ๊ฐ๊ฐ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์„์ง€ ๋…ผ์˜ํ•ด ๋ณด์„ธ์š”. ๋ชจ๋ธ ํ•ด์„์˜ ํ•„์š”์„ฑ ์„ฑ๋Šฅ์ด ์ข‹์€ ๋ชจ๋ธ์€ ๋Œ€์ฒด๋กœ Black Box Model์ž…๋‹ˆ๋‹ค. (์˜ˆ์ธก์ด ์ •ํ™•ํ•˜๊ธฐ ์œ„ํ•ด์„  ์•„๋ฌด๋ž˜๋„ ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ๋ณต์žกํ•ด์ง€๋‹ค๋ณด๋‹ˆ) ๋งŽ์€ ๋ถ„์•ผ์—์„œ ๋ชจ๋ธ์„ ๋ฌด์กฐ๊ฑด ์‹ ๋ขฐํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๊ฐ€๋ น, ์˜ํ™”๋ฅผ ์ถ”์ฒœํ•˜๋Š” ์‹œ์Šคํ…œ์—์„œ ์˜ํ™” ์ถ”์ฒœ์„ ์ž˜๋ชปํ–ˆ๋‹ค๊ณ  ํ•ด์„œ ์•„์ฃผ ํฐ ์ผ์ด ๋‚˜๋Š” ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ž์œจ์ž๋™์ฐจ๊ฐ™์€ ๊ฒฝ์šฐ, ํ•œ๋ฒˆ์˜ ํŒ๋‹จ์ด ํฐ ์‚ฌ๊ณ ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์šฐ๋ฆฌ๋Š” ๊ทธ ๋‚ด๋ถ€์˜ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์—ฐ๊ตฌํ•˜์—ฌ ๋” ์•ˆ์ •์„ฑ ์žˆ๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜์‚ฌ๊ฒฐ์ •์— ์ง์ ‘ ์˜ํ–ฅ์„ ์ฃผ๋Š” ๊ฒƒ์€ ํ•ด์„์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์„ ํ†ตํ•ด ์˜ˆ์ธก์— ๋Œ€ํ•œ 'score'๋Š” ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ๊ทธ ๊ณผ์ •์„ ๋ณด๊ณ  ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š” ๊ฒƒ์€..