๐ฟ Data/์ด๋ชจ์ ๋ชจ
Data Wrangling
Data Wrangling ์๋ฏธ raw data๋ฅผ ๋ ์์ฝ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํ ํํ๋ก ๋ฐ๊พธ๋ ๋ชจ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค.(Data cleaning, Data remediation, Data munging ์ด๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํฉ๋๋ค.) ๊ตฌ์ฑ(๋จ๊ณ) Discovery(๋ฐ๊ฒฌ) ๋ฐ์ดํฐ์ ๋ํด ์น์ํด์ง๋ ๋จ๊ณ๋ก, EDA ๋จ๊ณ์ ๊ฐ์ด ๋ฐ์ดํฐ์ ํน์ฑ, ํต๊ณ์น ๋ฑ์ ์ดํด๋ณด๋ฉฐ ๋ฐฉํฅ์ ์ก๋ ๋จ๊ณ์ ๋๋ค. Structuring(๊ตฌ์กฐํ) ์ผ๋ฐ์ ์ธ raw data๋ ๋ฐ๋ก ์ฌ์ฉํ๊ธฐ ํ๋ค๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฐ์ raw data๋ฅผ ์ ์ ํ๊ฒ ์กฐํฉํ์ฌ ์ํ๋ ๋ฐ์ดํฐํ๋ ์์ ์ป๋ ๋จ๊ณ์ ๋๋ค. ์ค๋ ์ ํฌ๊ฐ ๋ฐฐ์ด merge, groupby ๋ฑ์ ์ด์ฉํ ํน์ฑ ์์ฑ ๋ฐ ์ ๋ฆฌ๊ฐ ์ด ๋จ๊ณ์ ํด๋นํฉ๋๋ค. Cleaning(์ฒญ์) ๋ฐ์ดํฐ ๋ถ์์ ์์ด ์ํฅ์ ์ฃผ๋ ์ค๋ฅ๋ฅผ ์ ๊ฑฐ..
๋ฐ์ดํฐ ์ง๋ฌด ๊ฐ๋จ ์ ๋ฆฌ(๋น ๋ฐ์ดํฐ ์ปค๋ฆฌ์ด ๊ฐ์ด๋๋ถ ์ฐธ๊ณ )
์ค๋ฌด์์ ๋ฐ์ดํฐ๋ถ์๊ฐ/๋ฐ์ดํฐ์์ง๋์ด/๋ฐ์ดํฐ์ฌ์ด์ธํฐ์คํธ์๊ฒ ์ค์ํ ์ญ๋์ด ๋ฌด์์ด๋ผ๊ณ ์๊ฐํ๋ฉฐ, ์ด๋ค ์ด๋ ค์์ ๊ฒช๊ฒ ๋ ๊ฒ ๊ฐ์์ง์ ์ด๋ค ๋ฅ๋ ฅ์ด ํ์ํ ์ง ๋ ผ์ํด ๋ณด์ธ์. ๋ํ, ์น์ 2 ํ๋ก์ ํธ์ ์์ ๋ณธ์ธ์ด ์ป๊ณ ์ ํ๋ ์ ์ด๋ ๋ค์ง ๋ฑ์ ์๋ก ๊ณต์ ํด ๋ณด์ธ์. ๋ฐ์ดํฐ ์ง๋ฌด ๋ถ๋ฅ(์์ ์ง๋ฌธ์ ๊ธฐ์ค์ผ๋ก ์์ฑํ์์ต๋๋ค.) ์ข๋ ์์ธํ ๋ด์ฉ์ ๋ ์ฐพ์๋ด์ผ๊ฒ ์ง๋ง, ๋๋ต์ ์ผ๋ก๋๋ง ์ง๋ฌด๋ณ ์ญ๋ ๊ทธ๋ฆฌ๊ณ ์ด๋ค ์ด๋ ค์์ด ์์์ง ๋ฑ์ ํ๋จํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ๋ฐ์ดํฐ ๋ถ์๊ฐ(Data Analyst) ๋ฐ์ดํฐ์์ ๊ธฐ์ ์ ํ์ฌ ์ํ์ ๊ด๋ จ๋ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๊ณ ๊ฒฝ์์ง์๊ฒ ํจ์จ์ ์ผ๋ก ์ ๋ฌํ๋ ์ ๋ฌด๋ฅผ ๋ด๋นํฉ๋๋ค. ์ฌ๊ธฐ์ ์ธ์ฌ์ดํธ๋ '๊ฐ์ ํด์ผ ํ ๋ฌธ์ ๋ฅผ ์ฐพ์๋ด๊ณ ์ด๋ฅผ ํด๊ฒฐํ ์์ด๋์ด๋ฅผ ์๊ฐํด๋ด๋ ๊ฒ'์ ๋๋ค. ์ฃผ๋ก ๊ฐ๋จํ..
HyperParameter tuning
GridSearchCV ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ์งํํฉ๋๋ค. ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๊ฐ๋ฅํ ์๋๋ฅผ ๋ค ํด๋ณด์ธ์. ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์ ์ ๊ฐ์ฅ ํฐ ์ํฅ์ ์ค ํน์ฑ๊ณตํ์ด๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ๋ํด์ ์ ์ฑ๋ฅ ๊ฐ์ ์ ํฐ ์ํฅ์ ์ฃผ์๋์ง ์ค๋ช ํด ๋ณด์๊ณ ์๋ก์ ๊ฒฐ๊ณผ์ ๋ํด ๊ณต์ ํ๊ณ ํ ๋ก ํด ๋ณด์ธ์. Ordinal Encoder ์ฌ์ฉ 1-1. RandomizedSearchCV : GridSearchCV๋ฅผ ํ๊ธฐ ์ ์ ๋นํ ๋ฒ์๋ฅผ ์ฐพ๊ธฐ ์ํด ์คํํ์์ต๋๋ค. cross_val_score๋ฅผ ํตํด cv = 5๋ก ์ ์ ํ์์ต๋๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ์์ ๊ฒฐ๊ณผ์์ ๋๋ต์ ์ผ๋ก GridSearchCV์ ๋ฃ์ด์ค ์ซ์๋ฅผ ์๊ฐํด ๋ณผ ์ ์์ต๋๋ค. 1-2. GridSearchCV : ์์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ์ฝ๊ฐ์ ์ฐจ์ด๋ฅผ ์ฃผ๋ฉฐ ์ต์ ์ ํ..
Evaluation metrics for Classification
confusion matrix, classification report ๋ฑ์ ๊ทธ๋ ค ๋ณด์๊ณ , ๊ฐ ํ๊ฐ์งํ๋ค์ ๋ํด ์ต๋ํ ๋ถ์ํ๊ณ ๋ฌด์์ด ๋ถ์กฑํ์ง ์ด๋ค ๋ฐฉํฅ์ผ๋ก ์ฑ๋ฅ์ ๋์ฌ์ผ ํ ์ง ๋ ผ์ํด ๋ณด์ธ์. ๋ถ๋ฅ ๋ฌธ์ ์ ํ๊ฐ ์งํ accuracy(์ ํ๋) f1_score precision(์ ๋ฐ๋) recall(์ฌํ์จ ; sensitivity) ROC curve ๋ฐ AUC score accuracy(์ ํ๋) f1_score precision ๋ฐ recall - classification_report train set val set confusion matrix train set val set ROC curve ๋ฐ AUC train set val set train set vs val set ๋น์ฐํ ๊ฒฐ๊ณผ๊ฒ ์ง๋ง, ์ฌ๋ฌ์งํ..
category_encoders(TargetEncoder, CatBoostEncoder) ๊ทธ๋ฆฌ๊ณ Ordinal๊ณผ OneHot encoder
1. ์์ ์์ ์ธ๊ธ๋์ง ์์ ๋ค๋ฅธ ์ข ๋ฅ์ category_encoders๋ฅผ 2๊ฐ ์ด์ ์ฌ์ฉํด ๊ฒฐ๊ณผ๋ฅผ ๊ณต์ ํด ๋ณด์๊ณ , ๋ค์ ์ง๋ฌธ์ ๋ํด ์๋ก ๋ ผ์ํด ๋ณด์ธ์. ์ฌ์ฉํ์ encoder๋ ๊ฐ๊ฐ ์ด๋ค ์ฅ๋จ์ ์ ๊ฐ๊ณ ์์ผ๋ฉฐ, ์ด๋ค ์ํฉ์์ ์ฌ์ฉํ๋ฉด ์ข์๊น์? ์ฌ๋ฌ ์ธ์ฝ๋ ์ค TargetEncoder์ CatBoostEncoder๊ฐ ๊ฐ์ฅ ํฅ๋ฏธ๊ฐ ์๊ฒจ ์ ์ฉํด๋ณด์์ต๋๋ค. OrdinalEncoder(๊ธฐ์ค) ํผํ ์ ์๊ฐ : 4.27 s ์ ํ๋ ๋ฐ f1 score ํน์ฑ ์ค์๋ TargetEncoder ํผํ ์ ์๊ฐ : 5.29 s ์ ํ๋ ๋ฐ f1 score ํน์ฑ ์ค์๋ CatBoostEncoder ํผํ ์ ์๊ฐ : 14.1 s ์ ํ๋ ๋ฐ f1 score ํน์ฑ ์ค์๋ ๋ ๊ฐ์ง์ ์ธ์ฝ๋๋ฅผ ์ค์ ํ ์ด์ ๋ ์์ธํ๋ ๋ชจ๋ฅด์ง๋ง, Ca..