๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ํด์ ๋ฐฉ๋ฒ๋ค์ ์ฅ๋จ์ ๊ณผ ๊ฐ๊ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ํ์ฉํ ์ ์์์ง ๋ ผ์ํด ๋ณด์ธ์.
- ๋ชจ๋ธ ํด์์ ํ์์ฑ
- ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ ๋์ฒด๋ก Black Box Model์ ๋๋ค. (์์ธก์ด ์ ํํ๊ธฐ ์ํด์ ์๋ฌด๋๋ ๋ชจ๋ธ ์์ฒด๊ฐ ๋ณต์กํด์ง๋ค๋ณด๋)
- ๋ง์ ๋ถ์ผ์์ ๋ชจ๋ธ์ ๋ฌด์กฐ๊ฑด ์ ๋ขฐํ ์ ์์ต๋๋ค. ๊ฐ๋ น, ์ํ๋ฅผ ์ถ์ฒํ๋ ์์คํ
์์ ์ํ ์ถ์ฒ์ ์๋ชปํ๋ค๊ณ ํด์ ์์ฃผ
ํฐ ์ผ์ด ๋๋ ๊ฒ์ ์๋๋๋ค. ํ์ง๋ง ์์จ์๋์ฐจ๊ฐ์ ๊ฒฝ์ฐ, ํ๋ฒ์ ํ๋จ์ด ํฐ ์ฌ๊ณ ๋ก ์ด์ด์ง ์ ์์ผ๋ฏ๋ก ์ฐ๋ฆฌ๋ ๊ทธ ๋ด๋ถ์ ์๋
์๋ฆฌ๋ฅผ ๋ถ์ํ๊ณ ์ฐ๊ตฌํ์ฌ ๋ ์์ ์ฑ ์๋ ๋ชจ๋ธ์ ๋ง๋ค ํ์๊ฐ ์์ต๋๋ค. - ์์ฌ๊ฒฐ์ ์ ์ง์ ์ํฅ์ ์ฃผ๋ ๊ฒ์ ํด์์
๋๋ค. ์ฆ, ๋ชจ๋ธ์ ํตํด ์์ธก์ ๋ํ 'score'๋ ๊ณ์ฐํ ์ ์์ง๋ง ๊ทธ ๊ณผ์ ์ ๋ณด๊ณ ๊ฒฐ์ ์
๋ด๋ฆฌ๋ ๊ฒ์ ์ฌ๋์ ๋๋ค. ์ฐ๋ฆฌ๊ฐ ๋ฐ์ดํฐ ๋ถ์๊ฐ, ์ฌ์ด์ธํฐ์คํธ๋ผ๋ฉด ๊ทธ ๊ฒฐ์ ์ ๋ด๋ฆด ๊ฒฐ์ ๊ถ์(๊ฐ๋ น ์์์ง)๋ฅผ ์ค๋ํ๊ธฐ์ํด์ ๋ชจ๋ธ์
์ฑ๋ฅ ์ ์๋ง์ผ๋ก ํด๋ด๊ธฐ๋ ํ๋ค ๊ฒ์ ๋๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด๋ธ ๊ณผ์ ์ ์ดํดํ๊ณ ๋ถ์ํ ํ์๊ฐ ์์ต๋๋ค. - ๋๋ฌผ์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ธ๊ฐ์ด๊ธฐ์ ๊ฐ๊ณ ์๋ ํธ๊ฒฌ์ ๊นจํธ๋ฆด ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ ๋ขฐํ๋ ๋ชจ๋ธ์ ๋ถ์ํ๋ค๋ณด๋ฉด ๋ชฐ๋๋ ์ง์์
๋ฐ๊ฒฌํ ์๋ ์๊ณ ๊ณ ์ ๊ด๋ ์ ๋ฐ๊ฟ์ค ๋ต์ ์ป์ ์๋ ์์ต๋๋ค. - ์ฐจ์์ ์ ์ฃผ ํด๊ฒฐ. ์์ ์ ํฌ๊ฐ ๋ฐฐ์ด permutation importance, PDP, SHAP ๋ฑ ๋ชจ๋ธ์ ์ค๋ช
ํ๋ ๋ณ์๋ฅผ ์ฐพ์๋ด์ด ๊ธฐ์ฌ๋๊ฐ ์ ์
ํน์ฑ์ ์ ๊ฑฐํ๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ ์ฌ๋ฆด ์ ์์ต๋๋ค.
- ๋ชจ๋ธ ํด์ ๋ฐฉ๋ฒ ๋ถ๋ฅ
Intrinsic vs Post-hoc
- Intrinsic : ๋ชจ๋ธ ์์ฒด๋ก ํด์์ด ๋๋ ๋ฐฉ๋ฒ์ ๋๋ค. Linear Regression, Logistic Regression๊ณผ ๊ฐ์ด parameter๋ฅผ ๋ณด๊ณ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ํด์ํ ์ ์๋ ๊ฒฝ์ฐ์ ๋๋ค.
- Post-hoc : ๋ฐ๋๋ก ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ๋ฐ๋ก ํด์ํ๊ธฐ๋ ์ด๋ ค์ด ๊ฒฝ์ฐ์ ๋๋ค. ์ฆ, ๋ชจ๋ธ๋ง ์ดํ ํด์์ ์ํ ์๋ก์ด ๋ชจ๋ธ๋ง ํน์ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํด์ผํ๊ธฐ์ ๋ง ๊ทธ๋๋ก '์ฌํ๊ฒ์ฆ' ๋ฐฉ๋ฒ์ ๋๋ค.
Model-specific vs Model-agnostic
- Specific : ํน์ ๋ชจ๋ธ์๋ง ์ ์ฉ๋๋ ํด์ ๋ฐฉ๋ฒ์ ๋๋ค. ์ ํฌ๊ฐ ๋ฐฐ์ด Tree ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ feature importance(MDI ; ๋ถ์๋ ๊ฐ์ ๊ธฐ๋ฐ)์ด ๊ทธ ์์์ ๋๋ค.
- Agnostic : ๋ค์ํ ๋ชจ๋ธ์ ์ ์ฉ์ด ๊ฐ๋ฅํ๋ฉฐ ๋ชจ๋ธ์ด ํ์ตํ ํ ์ ์ฉ๋๋ ํด์ ๋ฐฉ๋ฒ์ผ๋ก PDP, SHAP๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฃผ๋ก ๋ชจ๋ธ๋ง์ ๊ตฌ์กฐ์ ์ธ ์ ๋ณด๋ฅผ ์ด์ฉํ๋ ๊ฒ์ด ์๋ input / output ์ ๋ถ์ํ์ฌ ํด์์ ํฉ๋๋ค.
Local vs Global
- Local : ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ, ๊ฐ ์ธ๋ฑ์ค๋ง๋ค ํด์์ ์งํํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ํด๋น ๋ฐ์ดํฐ์ feature ๊ฐ ๋ณต์กํ ๊ด๊ณ๋ณด๋ค๋ ์ ํ์ ํน์ ๋จ์กฐ๋ก์ด ํํ๋ฅผ ๋ํ๋ ๋๋ค. ๋ํ, ๋ฐ์ดํฐ๋ฅผ ๋์ฑ ๋ฌธ๋งฅํํ์ฌ ํด์ ๊ฐ๋ฅํ๊ธฐ์ ์ ํํ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
- Global : ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์์ธ๋ฌ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๋์ฒด๋ก ์ด ๋ฐ์ดํฐ์์ ์ด๋ค ๋ณ์๊ฐ ์ค์ํ๊ณ , ์ด๋ค ์ข ๋ฅ์ ๊ตํธ์์ฉ์ด ์ผ์ด๋๋์ง์ ๋ํ ๊ฒ ๋ฑ์ด ํด๋น๋ฉ๋๋ค. ์ ๋ฐ์ ์ผ๋ก ํฌ๊ฒ ์ดํดํ๊ธฐ์ ์ข์ง๋ง, ํ์คํ ๊ฐ์ ์ป๊ธฐ์ ์ด๋ ค์์ด ์์ต๋๋ค.
- '๋ชจ๋ธ ํด์์ ์ํ๋ค.'์ ๊ธฐ์ค
- fidelity : ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ์ ์ด์ ๋ํ ํด์์ด ์ผ๋ง๋ ๊ธ์ ํ์ง
- consistency : ๊ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ตํ ๋ ๋ชจ๋ธ์ ๋ํด, ๊ฐ๊ฐ์ ํด์์ด ์ผ๋ง๋ ๋ค๋ฅธ์ง. ๋ ๋ชจ๋ธ์ด ์์ธก ๊ฒฐ๊ณผ๊ฐ ๋์ผ๋ฉด์ ๋์์ ํด์๋ ๋น์ทํ๋ค๋ฉด ๋งค์ฐ consistencyํ ํด์์ด ๋ฉ๋๋ค.
- stability : ๋น์ทํ ์ฌ๋ก, ๋น์ทํ ์ธ๋ฑ์ค์ ๋ํด ํด์์ด ์ผ๋ง๋ ๋น์ทํ์ง
- comprehensibility : ํด์ ๋ฐฉ๋ฒ์ด ์ผ๋ง๋ ์ฌ๋์ด ์ดํดํ๊ธฐ ์ข์์ง
- ๋ชจ๋ธ ํด์ ๋ฐฉ๋ฒ(Feature Importance๋ฅผ ์ค์ฌ์ผ๋ก)
Gini Importance(Feature Importance as MDI) ; ๋ถ์๋ ๊ธฐ๋ฐ
- ์ฅ์ : ํธ๋ฆฌ ๊ธฐ๋ฐ ๋ชจ๋ธ์์ ๋ค์ ํธ๋ฆฌํ๊ฒ(?) ์ฌ์ฉํ ์ ์์ต๋๋ค.
- ๋จ์ : biasedํ๊ธฐ ์ฝ์ต๋๋ค. ์ฐ์ํ ๋ณ์ ํน์ ๋ฒ์ฃผ ๊ฐ์๊ฐ ๋ง์ ๋ฒ์ฃผํ ๋ณ์์ ๊ฐ์ high cardinality ๋ณ์๋ค์ ์ค์๋๋ฅผ ๋์ฑ ๋ถํ๋ ค์ ๋ํ๋ผ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ๋ํ, train set์ ํ์ตํ๋ ๊ณผ์ ์์ ์ป์ ๋ถ์๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ test set์์ ๋ค๋ฅธ ์ํฅ์ ์ค ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ๋ชจ๋ธ์ด ๊ณผ์ ํฉ๋ ์๋ก Gini importance๋ ๋ high cardinality ๋ณ์์ ํธํฅ๋ฉ๋๋ค. ํธ๋ฆฌ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๊ณผ์ ํฉ์ ๊ฐ๊น์ด ๊ฒฝ์ฐ depth์ noode ์ ๋ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ฒ์ฃผ๊ฐ ๋ง์ ๋ณ์๊ฐ ์ ํ๋ ๊ฐ๋ฅ์ฑ์ด ๋์์ง๊ธฐ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์, ์ด๋์ ๋ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ tree ๊ธฐ๋ฐ ๋ชจ๋ธ์์๋ ์ข์ ์ฐธ๊ณ ์๋ฃ๊ฐ ๋ ์ ์์ต๋๋ค.
Permutation Importance
- ์ฅ์ : Drop-column ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ ์ฌํ์ต์ํฌ ํ์๊ฐ ์์ต๋๋ค. Drop-column์ ๋งค์ฐ ํฐ ๋จ์ ์ธ 'set์ ํน์ฑ์ด -1์ด ๋๋ฉด ๋ชจ๋ธ์ ์๋ก fit์ ์งํํด์ผํ๋ค๋ ์ ' ์์ด, ๊ด์ฌ ํน์ฑ์ ๋ ธ์ด์ฆ(๋ณดํต์ shuffle)๋ฅผ ์ฃผ์ด ํน์ฑ ๊ฐฏ์๋ฅผ ์ ์งํ๋ฉด์ ๊ทธ ํน์ฑ์ ๊ธฐ์ฌ๋๋ฅผ ๋ฐ์ง ์ ์์ต๋๋ค.
- ๋จ์ : ๊ฐ์ ๋ฌด์์๋ก ์๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ํ ๋๋ง๋ค ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. shuffle์ ํ์๋ฅผ ๋๋ ค ๊ทธ ๋ถ์ฐ์ ์ค์ผ ์๋ ์์ผ๋ ๊ทธ๋งํผ ์ฐ์ฐ๋์ด ๋์ด๋ค๊ฒ ๋ฉ๋๋ค. ๋ํ ๋งค์ฐ ๋นํ์ค์ ์ธ ๋ฐ์ดํฐ ์ธ์คํด์ค(instance)๋ฅผ ์์ฑํ ์๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฐ์ดํฐ๋ฅผ ์๋ค๋ณด๋ ํค๊ฐ 180cm์ธ ์ฌ๋์ ๋ชธ๋ฌด๊ฒ๊ฐ 40kg๋ก ์ค์ ๋ row๊ฐ ์๊ธฐ๊ฒ ๋๋ฉด ๋ฐ์ดํฐ์ ๋น๊ฐ์ฐ์ฑ, ๋นํ์ค์ฑ์ด ์ฆ๊ฐํ๊ฒ ๋๊ณ ์์ธก๊ฐ์ ์ํฅ์ ๋ฏธ์น๊ฒ ๋ฉ๋๋ค.
PDP, SHAP์ ์ด์ฉํ ๋ฐฉ๋ฒ๋ค์ด ์์ต๋๋ค.
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
SQL_SQLite ์์ฃผ ์ฐ๋ ๋ฌธ๋ฒ (0) | 2022.01.20 |
---|---|
Boosting(vs bagging) (0) | 2022.01.06 |
Data Wrangling (0) | 2022.01.04 |
๋ฐ์ดํฐ ์ง๋ฌด ๊ฐ๋จ ์ ๋ฆฌ(๋น ๋ฐ์ดํฐ ์ปค๋ฆฌ์ด ๊ฐ์ด๋๋ถ ์ฐธ๊ณ ) (0) | 2022.01.02 |
HyperParameter tuning (0) | 2022.01.01 |