๋ฐ์ดํฐ ์ค๋ฌด ํ๋ก์ธ์ค
- ๋น์ฆ๋์ค ๋ฌธ์ ๋ฐ๊ฒฌ
- ๋ฐ์ดํฐ ๋ฐ๊ฒฌ ๋ฐ ๋ฌธ์ ๋ฐ๊ฒฌ
- ๋ฐ์ดํฐ ๋ฌธ์ ํด๊ฒฐ
- ๋น์ฆ๋์ค ๋ฌธ์ ํด๊ฒฐ
๋ฐ์ดํฐ ๋์(Data Leakage)
- ํ๊ฒ ์ธ์, ์์ธก ์์ ๋ ์ฌ์ฉ ํน์ ์ ์ ์๋ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ๊ฒฝ์ฐ
- ํ๋ จ๋ฐ์ดํฐ์ ๊ฒ์ฆ๋ฐ์ดํฐ๋ฅผ ์์ ํ ๋ถ๋ฆฌํ์ง ๋ชปํ ๊ฒฝ์ฐ(๊ฒ์ฆ์ ๋์ ๋ฐ์)
ํ๊ท๋ฌธ์ ํ๊ฒ ๋ถํฌ
- right skewed : log ๋ณํ
- left skewed : exp ๋ณํ
- ํ์ค ๋ฐ์ดํฐ๋ ๋๋ถ๋ถ์ด right skewed ์ด๋ค.
๋ฐ์ดํฐ wrangling
- merge์ groupby ๊ฐ์ง๊ณ ๋ ์ ์๊ฒ ์ ์ฌ์ฉํ์
ํน์ฑ ์ค์๋ ๊ณ์ฐ ๋ฐฉ๋ฒ
- Tree ๊ธฐ๋ฐ์์ ์ฃผ์ด์ง๋ MDI(๋ถ์๋ ๊ฐ์ ๊ธฐ์ค) importances
- Drop column importance
- Permutation importance
๋ถ์คํ
- ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฏผ๊ฐ, ๊ทธ๋งํผ ์ข์ ์ฑ๋ฅ์ ๋ผ ๊ฐ๋ฅ์ฑ๋ ๋์
- ๋ฐฐ๊น
: ๋ชจ๋ธ์
๊ณผ์ ํฉ
์ ๋ฐฉ์งํ๊ณ ์ถ์ ๋ - ๋ถ์คํ
: ๋ชจ๋ธ์
์ฑ๋ฅ(์ ์)
๋ฅผ ์ฌ๋ฆฌ๊ณ ์ถ์ ๋
๋ถ์คํ
์ ์๋ 'early_stopping' ๊ธฐ์ต
(searchCV๋ก ์ด๋์ ๋ ํ๋ผ๋ฏธํฐ ์ฐพ๊ณ , ๊ทธ ๋ค์ estimator ์ค์ฌ๋๊ฐ๋ฉด ๋ ๋ฏ)
์์ ํน์ฑ ์ค์๋๋ ํน์ฑ์ด ์ฃผ๋ ์ํฅ๋ง ์ ์ ์์๋ค.
- PDP : ํน์ฑ์ด '์ด๋ป๊ฒ' ์ํฅ์ ์ฃผ๋์ง(ํ๊ฒ์ ๋ํด)
- SHAP : ๊ฐ ๊ด์ธก์น์์ ๊ฐ๋ ํน์ฑ ๊ฐ๋ค ๊ฐ๊ฐ์ด ์ด๋ป๊ฒ ์ํฅ์ ์ฃผ์๋์ง
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL]46_Section1_review_๋ง๋ฌด๋ฆฌ (0) | 2022.01.17 |
---|---|
[TIL]45.8_Section1_sprint2_๊ฐ์ธ๋ณต์ต(์ฃผ๋ง) (0) | 2022.01.17 |
[TIL]45.5_Section1_sprint1_๊ฐ์ธ๋ณต์ต(์ฃผ๋ง) (0) | 2022.01.16 |
[TIL]45_Section2_Review(2) (0) | 2022.01.15 |
[TIL]37_Section2_sprint3_challenge (0) | 2022.01.06 |