Jayden`s
[TIL]45.5_Section1_sprint1_๊ฐ์ธ๋ณต์ต(์ฃผ๋ง)
Section1 spirnt1 ํค์๋ ์์ฃผ ๊ฐ๋จ ๋ณต์ต EDA concat ๊ณผ merge : ๋ฐ์ดํฐ๋ฅผ ํฉ์น๋ ๋ฐฉ๋ฒ์ ์ฐจ์ด๋ฅผ ๊ธฐ์ตํ๊ณ ํนํ merge์ ๋ค์ํ ๋ฐฉ๋ฒ ๊ธฐ์ตํ๊ธฐ. df1.merge(df2, how=, on=) # ์ถ๊ฐ๋ก ๊ฐ์ ์๋ฏธ์ ํน์ฑ์ธ๋ฐ, ์ด๋ฆ๋ง ๋ค๋ฅธ ๊ฒฝ์ฐ left_on= , right_on= ์ผ๋ก ์ ๋ ๊ฒ ๊ธฐ์ต) DataFrame conditioning(๋จ์ํ๊ฒ ๊ทธ๋ฅ ์กฐ๊ฑด ์ฃผ๋ ๊ฒ) ์ ํตํด์ ์๋ฃ filter ์ฒ๋ฆฌ -> ์ฐ์ต ๊ณ์ํ์. ๋ณดํต df[df['A'] == 'a'] ํด์ 'A' ํน์ฑ์์ 'a'๋ผ๋ ๊ฐ์ ๊ฐ๋ row๋ง ๊ฐ์ ธ์๋๋ฐ, df.A.isin('a') ์ ๊ฐ์ด ์ ๋ ๋ฐฉ๋ฒ๋ ์๋ค๋ ๊ฒ ์์ง Groupby ๊ผญ๊ผญ ๊ทธ ๊ฐ๋ ๊ณผ ๋ด์ฉ ์์งํ๊ธฐ!!! ๊ฐ์ธ์ ์ผ๋ก ํ๋ก์ ํธํ๋ฉด์ ํ์ฉ๋๊ฐ ์ ๋ง..
[TIL]45_Section2_Review(2)
Section2 sprint2 ํค์๋ ์ ๋ฆฌ Pipeline, named_steps ์ง๋๋ถ์๋, ์ํธ๋กํผ, ํธ๋ฆฌ๋ชจ๋ธ : ๋น์ ํ, ๋ค์ค๊ณต์ ์ฑ ๋ฐ์ดํฐ์ ์ ๋ฆฌ(๋ถ๋ฅ ๊ธฐ๋ฐ์ด๋ฏ๋ก) ๋๋คํฌ๋ ์คํธ : ๋ฐฐ๊น -> ๋ถํธ์คํธ๋ฉ + ์ด๊ทธ๋ฆฌ๊ฒ์ดํ ๋ถํธ์คํธ๋ฉ : ๋ณต์์ถ์ถ, OOb(Out Of bag) ๋๋คํฌ๋ ์คํธ์ ๋ฌด์์์ฑ 1. ๋ถํธ์คํธ๋ํ(๊ด์ธก์น ๋ณต์์ถ์ถ) 2. ๋ถ๊ธฐ ์ ํน์ฑ ์ ํ ๋๋ค(log2 n ๊ฐ) ํธ๋ฆฌ๊ธฐ๋ฐ -> ์ํซ์ธ์ฝ๋ฉ ์ด์ฉ ์, ํน์ฑ์ ์ค์๋๊ฐ ๋ถ์ฐ๋จ ๋ฐ๋ผ์ ์์ํ ์ธ์ฝ๋ฉ ์ฌ์ฉ ๊ถ์ฅ. (ํธ๋ฆฌ๊ธฐ๋ฐ์์ ๋ฒ์ฃผ์ ์์๊ฐ ํฐ ์๋ฏธ X) ๊ต์ฐจ๊ฒ์ฆ ์ต์ ํ(ํ๋ จ ์ ์ ์ fit๋๊ฒ), ์ผ๋ฐํ(๊ฒ์ฆ, ํ ์คํธ ์ฆ ์๋ก์ด ๋ฐ์ดํฐ ์ ์ ๋ํด ์ข์ ์ฑ๋ฅ ๋์ค๊ฒ) ์ค๋ section2 final wrap up์ ์งํํ์๋๋ฐ, ๋ค์์ ๋ชจ๋ ๋ด..
[TIL]37_Section2_sprint3_challenge
๋ฐ์ดํฐ ์ง๋ฌด ํ๋ก์ธ์ค ์ ๋ณด ๋์(Data Leakage) ๋ถ๊ท ํํ ๋ฐ์ดํฐ(Imbalanced Data) - ๋ถ๋ฅ ๊ฐ ๋ชจ๋ธ์ weight ์ ์ฉ - ํ๊ท right skewed -> log๋ณํ left skewed -> exp๋ณํ ๊ทธ๋ฌ๋ ์ค์ ๋ฐ์ดํฐ๊ฐ left skewed์ธ ๊ฒฝ์ฐ๋ ๋๋ฌผ๋ค Data Wrangling ํน์ฑ ์ค์๋ - Gini(MDI) - Permutation Boosting - Adaboost -Gradientboost - XGB -Light GB -Catboost ๋ชจ๋ธ ํด์ - Feature Importance - PDP isolate interact - SHAP
Boosting(vs bagging)
1. ํน์ฑ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ์ฅ๋จ์ ์ ์ค๋ช ํ๊ณ ๊ฐ๊ฐ ์ด๋ค ์ํฉ์ ์ฌ์ฉํ๋ฉด ์ข์์ง ์ค๋ช ํด ๋ณด์ธ์. ์ฌ๊ธฐ๋ก 2. bagging๊ณผ boosting์ ์ฐจ์ด์ ๊ณผ ๊ฐ๊ฐ ์ด๋ค ์๊ณ ๋ฆฌ์ฆ ์ข ๋ฅ๋ค์ด ์๋์ง ์๊ณ ๋ฆฌ์ฆ๋ณ ์ฅ๋จ์ ์ ์ค๋ช ํ๊ณ , ์ด๋ค ์ํฉ์์ ์ฌ์ฉํ๋ฉด ์ข์์ง ๋ ผ์ํด ๋ณด์ธ์. bagging vs boosting์ ์ฐจ์ด ๋ฐฐ๊น : ๋ณ๋ ฌ ํ์ต, ๊ฐ๊ฐ์ ํธ๋ฆฌ๋ค์ด ๋ ๋ฆฝ์ ๋ถ์คํ : ์์ฐจ ํ์ต(์ง๋ ฌ), ๋ค์ ํธ๋ฆฌ๊ฐ ์ด์ ํธ๋ฆฌ์ ์ํฅ์ ๋ฐ์(์ข ์) ์ค๋ต์ ๋ํด์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํจ์ผ๋ก ์จ ์ค๋ต์ ๋ ์ง์คํฉ๋๋ค. ๊ทธ๋งํผ ๋ฐฐ๊น ์ ๋นํด error๊ฐ ์ ๊ณ ์ฑ๋ฅ์ด ์ข์ต๋๋ค. ๋ค๋ง, ์ค๋ต์ ๋ ์ง์คํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ค๋ฒ ํผํ ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ๋จ์ํ๊ฒ ์๊ฐํ ์๋ ์์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๋ณ ๊ฒฐ์ ํธ๋ฆฌ(๊ธฐ๋ณธ๋ชจ๋ธ)์ ์ฑ๋ฅ์ด ๋ฎ๋ค๋ฉด ..
Model Interpreting
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ํด์ ๋ฐฉ๋ฒ๋ค์ ์ฅ๋จ์ ๊ณผ ๊ฐ๊ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ํ์ฉํ ์ ์์์ง ๋ ผ์ํด ๋ณด์ธ์. ๋ชจ๋ธ ํด์์ ํ์์ฑ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ ๋์ฒด๋ก Black Box Model์ ๋๋ค. (์์ธก์ด ์ ํํ๊ธฐ ์ํด์ ์๋ฌด๋๋ ๋ชจ๋ธ ์์ฒด๊ฐ ๋ณต์กํด์ง๋ค๋ณด๋) ๋ง์ ๋ถ์ผ์์ ๋ชจ๋ธ์ ๋ฌด์กฐ๊ฑด ์ ๋ขฐํ ์ ์์ต๋๋ค. ๊ฐ๋ น, ์ํ๋ฅผ ์ถ์ฒํ๋ ์์คํ ์์ ์ํ ์ถ์ฒ์ ์๋ชปํ๋ค๊ณ ํด์ ์์ฃผ ํฐ ์ผ์ด ๋๋ ๊ฒ์ ์๋๋๋ค. ํ์ง๋ง ์์จ์๋์ฐจ๊ฐ์ ๊ฒฝ์ฐ, ํ๋ฒ์ ํ๋จ์ด ํฐ ์ฌ๊ณ ๋ก ์ด์ด์ง ์ ์์ผ๋ฏ๋ก ์ฐ๋ฆฌ๋ ๊ทธ ๋ด๋ถ์ ์๋ ์๋ฆฌ๋ฅผ ๋ถ์ํ๊ณ ์ฐ๊ตฌํ์ฌ ๋ ์์ ์ฑ ์๋ ๋ชจ๋ธ์ ๋ง๋ค ํ์๊ฐ ์์ต๋๋ค. ์์ฌ๊ฒฐ์ ์ ์ง์ ์ํฅ์ ์ฃผ๋ ๊ฒ์ ํด์์ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ ํตํด ์์ธก์ ๋ํ 'score'๋ ๊ณ์ฐํ ์ ์์ง๋ง ๊ทธ ๊ณผ์ ์ ๋ณด๊ณ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๊ฒ์..