๋ชฉํ
- ๊ณต๋ถ์ฐ, ์๊ด๊ณ์์ ๊ณตํต์ ๋ฐ ์ฐจ์ด์
- ๋ฒกํฐ์ ์ง๊ต ๊ทธ๋ฆฌ๊ณ ๊ทธ ์กฐ๊ฑด
- ๋จ์ ๋ฒกํฐ, ๋จ์ ๋ฒกํฐ๋ก์ ๊ตฌ๋ถ
- span, basis, rank์ ๊ฐ๋ ์ดํด
- ๊ฐ์ฐ์์ ์๊ฑฐ๋ฒ(Gaussian elemination) ์ดํด
- linear projection์ ๋ํ ์ดํด
Variancce(๋ถ์ฐ)
- ๊ฐ ๊ฐ๋ค์ ํ๊ท ์ผ๋ก๋ถํฐ์ ์ฐจ์ด์ ์ ๊ณฑ ํ๊ท
- ๋ฐ์ดํฐ๊ฐ ํ๊ท ์ผ๋ก๋ถํฐ ์ผ๋ง๋ ํผ์ ธ์๋๊ฐ
- ๋ชจ์ง๋จ์ ๋ถ์ฐ์ ๊ตฌํ ๋ ddof=0, ํ๋ณธ์ง๋จ์ ๋ถ์ฐ์ ๊ตฌํ ๋ ddof=1 (ddof ๋ delta degrees of freedom์ผ๋ก ์์ ๋์์ ์ผ๋ง๋ ๋นผ์ผํ๋๊ฐ๋ฅผ ์๋ฏธ) ์ฆ, ๋ชจ์ง๋จ์ ๋ถ์ฐ์ n์ผ๋ก ๋๋๊ณ ํ๋ณธ์ง๋จ์ ๋ถ์ฐ์ n-1 ๋ก ๋๋๋ค.
Covariance(๊ณต๋ถ์ฐ)
- 1๊ฐ์ ๋ณ์๊ฐ ๋ณํํ ๋, ๋ค๋ฅธ ๋ณ์๋ ์ด๋ ํ ์ฐ๊ด์ฑ์ ๋ณด์ด๋ฉฐ ๋ณํ๋์ง ์ธก์ ํ ๊ฒ
๊ณต๋ถ์ฐ ์ดํด
- ๊ณต๋ถ์ฐ์ ๊ฐ์ด ํฌ๋ค๋ ๊ฒ์ ๋ ๋ณ์ ๊ฐ์ ์ฐ๊ด์ฑ์ด ํฌ๋ค๋ ๊ฒ์ ๋ปํจ
- ๋ค๋ง, ๋ณ์๋ค์ ์ค์ผ์ผ์ด ๋ค๋ฅด๋ค๋ฉด(๋จ์๊ฐ ๋ค๋ฅด๋ค๋ฉด) ์ค์ ๋ณ์ ์์ฒด์ ๊ธฐ์ค ์์ด ๊ทธ์ ์ค์ผ์ผ์ด ํฐ ๋ณ์๋ค์ ํฐ ๊ฐ์ ๋ํ๋ด๊ฒ ๋๋ค.
ํด์ ์ด๋ฅผ ์กฐ์ ํด์ค์ผํจ(ํ์คํ)
df.cov() # ๊ณต๋ถ์ฐ ๊ณ์ฐ ๋ฐฉ๋ฒ-1
np.cov(s1, s2) # ๊ณต๋ถ์ฐ ๊ณ์ฐ ๋ฐฉ๋ฒ-2
Correlation coefficient(์๊ด๊ณ์)
- ๊ณต๋ถ์ฐ์ ์ค์ผ์ผ์ ์กฐ์ ํ๊ธฐ ์ํด ๋ ๋ณ์์ ํ์คํธ์ฐจ๋ก ๋๋์ด์ค ๊ฐ
- ์๊ด๊ณ์๋ -1์์ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ฏ๋ก ๊ทธ ๊ฐ์ ๋ํ ์๋์ ์ธ ๊ธฐ์ค์ด ์กํ
- 0์ ๊ฐ๊น์ธ์๋ก ์๋ฌด ์๊ด๋ ์๋ค๋ ์ด์ผ๊ธฐ
\begin{align}
cor(X,Y) = r = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}
\end{align}
df.corr() # ์๊ด๊ณ์ ๊ณ์ฐ ๋ฐฉ๋ฒ-1
np.corrcoef(s1,s2) # ์๊ด๊ณ์ ๊ณ์ฐ ๋ฐฉ๋ฒ-2
Spearman correlation
- ์์์ ๋ฐฐ์ด ์๊ด๊ณ์๋
Pearson correlation
๋ฐ์ดํฐ๋ก๋ถํฐ ๋ถ์ฐ๊ณผ ๊ฐ์ ํต๊ณ์น๋ฅผ ๊ณ์ฐํ ์ ์์ ๋ ์ฌ์ฉ ๊ฐ๋ฅ - ๋ฐ์ดํฐ๊ฐ numeric์ด ์๋๋ผ categorical ์ด๋ผ๋ฉด ๊ฐ๋ค์ ๋ํ ์์์ ์ซ์๋ฅผ ๋ถ์ฌํ๊ณ ์๊ด๊ด๊ณ๋ฅผ ์ธก์
์ด๊ฒ spearman correlation coefficvient(์ผ๋จ ๊ฐ๋ ๋ง ์์๋์)
Orthogonality(์์ง์ฑ)
- ๋ฒกํฐ ํน์ ๋งคํธ๋ฆญ์ค๊ฐ ์๋ก ์์ง์ผ๋ก ์๋ ์ํ
์ขํ์์ ์๋ ๊ฑฐ์ ๋ชจ๋ ๋ฒกํฐ๋ ๋ค๋ฅธ ๋ฒกํฐ์ ์/์์ผ๋ก ์๊ด๊ด๊ณ๊ฐ ์์ฃผ ์กฐ๊ธ์ด๋ผ๋ ์๋ค.
๋จ, ์์ง์ธ ๋ฒกํฐ๋ง ์จ์ ํ ์๊ด ์์ฒด๊ฐ ์๋ค. (Cov=0)
๋ด์ ๊ฐ์ด 0 ์ด๋ฉด ์์ง
๋จ์ ๋ฒกํฐ(Unit vectors)
- ๋จ์๊ธธ์ด๊ฐ 1์ธ ๋ชจ๋ ๋ฒกํฐ(ํฌ๊ธฐ๊ฐ 1์ธ ๋ฒกํฐ)
ex) 1์ฐจ์(R) ๋จ์ ๋ฒกํฐ i_hat = [1]
2์ฐจ์(R^2) ๋จ์ ๋ฒกํฐ i_hat = [1 0], j_hat = [0 1]
3์ฐจ์(R^3) ๋จ์ ๋ฒกํฐ i_hat = [1 0 0], j_hat = [0 1 0], k_hat = [0 0 1]
Span
- ์ฃผ์ด์ง ๋ ๋ฒกํฐ์ ์กฐํฉ(ํฉ ๋๋ ์ฐจ)๋ก ๋ง๋ค ์ ์๋ ๋ชจ๋ ๊ฐ๋ฅํ ๋ฒกํฐ์ ์งํฉ(๊ณต๊ฐ)
์ ํ ๊ด๊ณ์ ๋ฒกํฐ(Linearly Dependent Vectors)
- ๋ ๋ฒกํฐ๊ฐ ๊ฐ์ ์ ์์ ์๋ ๊ฒฝ์ฐ๋ก ์๋ก ์์๋ฐฐ๊ฐ ๋๋ค. => ๊ฐ์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ๋ฒกํฐ
- ์ด ๋ ๋ฒกํฐ๋ก๋ ์ธ๋ถ์ ์๋ก์ด ๋ฒกํฐ๋ฅผ ํ์ฑํ ์ ์๋ค.
๋น์ ํ ๊ด๊ณ์ ๋ฒกํฐ(Linearly Independent Vectors)
- ๊ฐ์ ์ ์์ ์์ง ์์ ๋ ๋ฒกํฐ๋ก ์๋ก ๋ ๋ฆฝ๋์ด์๋ค. => ์๋ก ๋ค๋ฅธ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค.
- ๋ ๋ฒกํฐ์ ์กฐํฉ์ ํตํด ๋ค๋ฅธ ๋ฒกํฐ๋ค๋ ๋ง๋ค์ด๋ผ ์ ์๋ค.
Basis
- V๋ผ๋ ๊ณต๊ฐ์ ์ฑ์ธ ์ ์๋ ์ ํ ๊ด๊ณ์ ์์ง ์์ ๋ฒกํฐ๋ค(์์ Span ๊ฐ๋ ์ ๊ด์ ์ ๋ค์ง์ ๊ฒ)Orthogonal Basis
- basis ๋ค ์ค์์๋ ์๋ก ์์ง์ธ ์กฐํฉ(์๋ฌด๋๋ ์๊ด๊ด๊ณ๊ฐ 0์ด๋, ์๋ก ๋ถํ์ํ๊ฒ ์ ๋ณด๊ฐ ์๊ฒน์น๋ค.)Orthonormal Basis
- basis ๋ค ์ค์์๋ ์๋ก ์์ง์ด๋ฉด์ ๋์์ ํฌ๊ธฐ(๊ธธ์ด)๊ฐ 1์ธ ๋ฒกํฐ(๋จ์ ๋ฒกํฐ)
Rank
- ๋งคํธ๋ฆญ์ค์ rank๋ ๋งคํธ๋ฆญ์ค์ ์ด์ ๊ตฌ์ฑํ๋ ๋ฒกํฐ๋ค๋ก ๋ง๋ค ์ ์๋ span(๊ณต๊ฐ)์ ์ฐจ์ => ๊ฒฐ๊ตญ์ ๋งคํธ๋ฆญ์ค ์์ ์๋ ๋ฒกํฐ๋ก ํํํ ์ ์๋ ๊ณต๊ฐ์ ์ฐจ์(span์ด๋ ๊ฐ์ ๊ฐ๋ )
- ๋จ, ๋งคํธ๋ฆญ์ค์ ์ฐจ์์ด 2x2๋ผ๊ณ ํด์ ๋ฌด์กฐ๊ฑด rank=2 ์ธ ๊ฒ์ ์๋(๋งคํธ๋ฆญ์ค๋ฅผ ๊ตฌ์ฑํ๋ ๋ ๋ฒกํฐ๊ฐ ์ ํ๊ด๊ณ๋ฉด rank=1)
Gaussian Elimination(๊ฐ์ฐ์์ ์๊ฑฐ๋ฒ)
- ์ฃผ์ด์ง ๋งคํธ๋ฆญ์ค ๋ด์ ๋ฒกํฐ ์กฐํฉ์ ํจ์ผ๋ก์จ ํ๋์ ๋ฒกํฐ๋ฅผ 0์ ๊ฐ๋ง ๊ฐ๊ฒ ๋ง๋๋ ํํ
- ๋ง์ฝ ํ๋์ ๋ฒกํฐ๊ฐ 0๋ง ๊ฐ๋ ๊ฒ ๊ฐ๋ฅํ๋ค๋ฉด, ์ด๋ ๋งคํธ๋ฆญ์ค ๋ด์ ๋ฒกํฐ๋ค์ ์กฐํฉ์ผ๋ก ํํ์ด ๋๋ค๋ ์๋ฏธ์ด๋ฏ๋ก rank ๊ฐ 1๊ฐ ์ค์ด๋ ๋ค.
Linear projections(R^2 ;2์ฐจ์ ๊ณต๊ฐ์์)
projection ํ๋ ๊ฒ๊ณผ ์์ ๋ด์ฉ๋ค์ ์ ์๊ฐํด๋ณด์
๊ฒฐ๊ตญ projection์ ํ๋ค๋ ๊ฒ์ ์ ํ ๋
๋ฆฝ์ด๋ ๋ ๋ฒกํฐ๋ฅผ ์ ํ ์ข
์์ผ๋ก ๋ฐ๊พธ๋ ๊ณผ์ ์ด๋ค.
์์ฃผ ๊ฐ์ง ์๋๋ผ๋ ๋ ๋ฒกํฐ(๋งคํธ๋ฆญ์ค์์ ์นผ๋ผ)๊ฐ ์ผ์ถ ๋งค์ฐ ๋น์ทํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค๋ฉด ๊ตณ์ด ์ด 2๊ฐ์ง๋ฅผ ๊ฐ์ ธ๊ฐ ํ์๊ฐ ์์ด์ง๋ ๊ฒ
๋ฌผ๋ก ์ฝ๊ฐ์ ์ ๋ณด ์์ค์ด ์๊ธด ํ์ง๋ง ์ฐจ์ ์์ฒด๊ฐ ํ๋๊ฐ ์ค์ด๋๋ ๊ฒ์ผ๋ก ๊ณ์ฐ ์ ๋ฉ๋ชจ๋ฆฌ ๋ฑ์๋ ์ด๋์ด ์๊ธด๋ค.
์ฆ, '์ฐจ์ ์ถ์'๋ฅผ ํ ๋ ์ฌ์ฉ๋๋ ๊ฐ๋ ์ด๋ค.
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL]14.Clustering(๊ตฐ์งํ) (0) | 2021.12.07 |
---|---|
[TIL]13.High Dimensional Data (0) | 2021.12.05 |
[TIL]11.Vector and Matrix (0) | 2021.12.01 |
[TIL]10.์คํ๋ฆฐํธ ์ฑ๋ฆฐ์ง (0) | 2021.12.01 |
[TIL]9.Bayesian Inference (0) | 2021.11.29 |