- 'Dimension์ด ์ปค์ง๋ค.'์ ์๋ฏธ๋ ๋ฌด์์ผ๊น์?
์ฐจ์์ด ๋์ด๋๋ค. -> ๋ณ์๊ฐ ๋์ด๋๋ค. -> matrix(ํน์ dataframe)์์ ์ด(์นผ๋ผ)์ ์๊ฐ ๋์ด๋๋ค.
- ์ฐจ์ ์ถ์(Dimensionality Reduction)๋ฅผ ํ๋ ์ด์
ํจ์จ์ฑ์ด ๋จ์ด์ง๋ ๋ณ์๋ฅผ ์ค์ด๊ธฐ ์ํด์(input ๋๋น output์ด ์ข์ง ๋ชปํ ๊ฒฝ์ฐ ; ์ค๋ช ๋ ฅ์ด ๋จ์ด์ง๋ ๊ฒฝ์ฐ)
Dimension์ด ์ปค์ก์ ๋ ์ด๋ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊น?
๋จ์ํ๊ฒ ์๊ฐํ๋ฉด, ์ธ๊ฐ์ด ์ดํดํ๊ธฐ(๋น์ทํ๊ฒ ๋ค๋ฅธ ์๋ฏธ๋ก๋ ์๊ฐํํ๊ธฐ) ์ด๋ ค์์ง๋ค. ์ฆ, ์ง๊ด์ ์ผ๋ก ์ดํด๊ฐ ๋์ง ์๋๋ค๋ ๊ฒ
๋ํ, ์ค๋ช ๋ ฅ์ด ๋์ ์ฐจ์(๋ณ์, ์นผ๋ผ)๋ค๋ง ์๋ค๋ฉด ํฐ ๋ฌธ์ ๊ฐ ์๋ ์ ์์ง๋ง ์ค๋ช ๋ ฅ์ด ๋จ์ด์ง๋ ์ฐจ์์ ๊ฒฝ์ฐ ์ธ๋ฐ์์ด ์ปดํจํฐ ๊ณ์ฐ ๊ณผ์ ์ด๋ ๋ฉ๋ชจ๋ฆฌ๋ง ๋ญ๋นํ๋ ๊ผด์ด ๋ ์ ์๋ค. ๋ค์ผ๋ก ์ํ๋ ์์ํ์ ๋ด๊ธฐ์ ๋ฐฉํด๊ฐ ๋ ์ ์๋ค.
ํด๊ฒฐ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ฐจ์์ ์ค์ด๋ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉฐ ๋ณ์ ์ ํ(๋จ์ํ ์ค๋ช ๋ ฅ ์ข์ ๋ณ์๋ค๋ง ๋ฝ์๋ด๋ ๋ฐฉ๋ฒ ;feature selection)๊ณผ ๋ณ์ ์ถ์ถ(๋ณ์๋ค์ ์กฐํฉ์ ํตํด ์๋ก์ด ์ค๋ช ๋ ฅ์ด ์ข์ ๋ณ์๋ฅผ ๋ง๋ฆ์ผ๋ก์จ ์ฐจ์์ ์ค์ด๋ ๋ฐฉ๋ฒ ;feature extraction)์ด ์๋ค.PCA(์ฃผ์ฑ๋ถ ๋ถ์ ; Principal Component Analysis)๋ ์์ ์ฐจ์ ์ถ์ ๋ฐฉ๋ฒ๋ค ์ค ์ด๋์ ์ํ๋?
PCA๋ ๊ธฐ์กด ๋ณ์(์นผ๋ผ)๋ค์ ๊ฐ์ฅ ํจ์จ์ ์ผ๋ก ์ค๋ช ํ๋ ๋ณ์๋ค์ ๋ง๋ค์ด๋ด๋ ๋ฐฉ๋ฒ(์ ๋ณด์ ์์ค์ ์ต์ํํ๋ฉด์ ์ข์ ๊ฒฐ๊ณผ๊ฐ์ ๋ด๋๋ก projection)์ผ๋ก ๋ณ์ ์ถ์ถ์ ์ํ๋ค.
- ๋ณ์ ์ ํ์ ์์์๋ ์ด๋ค ๊ฒ ์์๊น?
.Filtering, Wrapper, Embedding ๋ฑ์ด ์๋ค. ํนํ, Embedding์ ์ด๋ฆ, ์ฑ๋ณ ๋ฑ๊ณผ ๊ฐ์ ์ด์ฐ๋ณ์๋ฅผ ์ฐ์์ ์ธ ๋ฒกํฐ๋ก ๋ฐ๊พธ์ด ์ ์ฐจ์์ผ๋ก ๋ง๋๋ ๊ณผ์ ์ด๋ค.
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Dendrogram์ ํตํ Clustering ์๊ฐํ ๋ฐ Elbow Method (0) | 2021.12.06 |
---|---|
Clustering(๊ตฐ์งํ) (0) | 2021.12.06 |
Linear Algebra + (Cov ;๊ณต๋ถ์ฐ, Cor ; ์๊ด๊ณ์) (0) | 2021.12.02 |
Verctor, Matrix, DataFrame (0) | 2021.12.01 |
Bayesian Statistics(๋ฒ ์ด์ฆ์ฃผ์) vs Frequentist statistics(๋น๋์ฃผ์) (0) | 2021.11.29 |