K-Nearest Neighbors : input feature์ ๋ํด ์ต๊ทผ์ k๊ฐ์ ๋ฐ์ดํฐ์ f(x)๊ฐ์ ๋ค์๊ฒฐ ํ์์ผ๋ก ๋ฐ๋ผ๊ฐ๋ ๋ฐฉ์
- Nonparametric approach(๋น๋ชจ์ ์ ๊ทผ)
- ๋ฐ์ดํฐ๊ฐ ํน์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ์ง ์๋๋ค.
- train data๊ฐ ๋ง์์๋ก ํ๋ผ๋ฏธํฐ์ ๊ฐฏ์๋ ๋ง์์ง๋ค. (๋ชจ์ ์ ๊ทผ๊ณผ ๋ค๋ฅด๊ฒ ํ๋ผ๋ฏธํฐ์ ๊ฐฏ์๊ฐ ํ์ ๋์ง ์๋๋ค.)
- Classification : ์์์ k์ ๋ํด input feature ์ต๊ทผ์ k๊ฐ์ ๋ฐ์ดํฐ label์ ๋ฐ๋ผ ๋ค์๊ฒฐ๋ก ๊ฒฐ์
- Regression : ๋ง์ฐฌ๊ฐ์ง๋ก ์ต๊ทผ์ k๊ฐ์ ๋ฐ์ดํฐ ๊ฐ์ ๋ํ ํ๊ท ํน์ linear regression
- Curse of Dimensionality(์ฐจ์์ ์ ์ฃผ) : ๋ฐ์ดํฐ์ ์ฐจ์์ด ์ปค์ง์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ๊ฒ ์ ํ๋๋ ํ์
- ์ฐจ์์ด ์ฆ๊ฐํ๋ฉด, ๋ฐ์ดํฐ๊ฐ ์ฐจ์งํ ์ ์๋ ๊ณต๊ฐ์ด ์ปค์ง๋ค. ๊ทธ๋ฌ๋ ๊ทธ๋งํผ ๋ฐ์ดํฐ ๊ฐฏ์๋ ๋ถ์กฑํ๋ค๋ฉด ๋ฐ์ดํฐ์ ๋ฐ๋
๋ ๊ฐ์ํ๊ฒ ๋๋ค. ์ฆ, ์ฐจ์์ด ์ปค์ง์๋ก/ํ์ต ๋ฐ์ดํฐ๊ฐ ์ ์์๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ํ๋๋ค.
k์ ๋ํด์
- k ๊ฐ์ด ๋๋ฌด ์์ผ๋ฉด,
- ๋ถ๋ฅ ๊ธฐ์ค์ด too much strict๊ฐ ๋๋ค.
- train set์์์ ์ค์ฐจ๋ ๊ฐ์ํ์ง๋ง test set์์๋ ์ค์ฐจ๊ฐ ๋งค์ฐ ์ปค์ง๋ค.
- ์ฆ, Overfitting๋ ๋ชจ๋ธ
- k ๊ฐ์ด ๋๋ฌด ํฌ๋ฉด,
- ๋ถ๋ฅ ๊ธฐ์ค์ด too much generalํ๊ฒ ๋๋ค.
- test set์ ๋ํ ์ ํ๋๊ฐ ๋ฎ์ ์ ์๋ค.
- ์ฆ, Underfitting๋ ๋ชจ๋ธ
+ k๊ฐ์ ์ผ๋ฐ์ ์ผ๋ก ํ์๋ฅผ ์ฌ์ฉํ๋ค.(์ง์์ผ ๋, ๋ค์๊ฒฐ์ด ๋์ ์ด ๋์ด ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ ์ ์์ ์ ์๊ธฐ ๋๋ฌธ)
*ํ๋ผ๋ฏธํฐ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ์ ์ฐจ์ด
- ํ๋ผ๋ฏธํฐ : ๋ฐ์ดํฐ๋ฅผ ํตํด ๊ตฌํด์ง๋ ๊ฐ๋ค ex)ํ๊ท , ํ์คํธ์ฐจ ๋ฑ๋ฑ
- ํ์ดํผ ํ๋ผ๋ฏธํฐ : ๋ชจ๋ธ๋งํ ๋ ์ฌ์ฉ์๊ฐ ์ง์ ์ธํ ํด์ฃผ๋ ๊ฐ ex)KNN์์์ k๊ฐ
๋ด์ฉ ์ฐธ๊ณ
https://process-mining.tistory.com/131
https://89douner.tistory.com/31
https://leonard92.tistory.com/12
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Hypothesis Test(๊ฐ์ค ๊ฒ์ ) 2 (0) | 2021.11.29 |
---|---|
Hypothesis Test(๊ฐ์ค๊ฒ์ ) (0) | 2021.11.28 |
Basic Derivative(์ถ๊ฐ) (0) | 2021.11.28 |
EDA(Exploratory Confirmatory Analysis; ํ์์ ์๋ฃ ๋ถ์) (1) | 2021.11.28 |
PCA(Principal Component Analysis) (0) | 2021.11.15 |