Jayden1116 2021. 12. 3. 00:53

๋ชฉํ‘œ

  • ๊ณต๋ถ„์‚ฐ, ์ƒ๊ด€๊ณ„์ˆ˜์˜ ๊ณตํ†ต์  ๋ฐ ์ฐจ์ด์ 
  • ๋ฒกํ„ฐ์˜ ์ง๊ต ๊ทธ๋ฆฌ๊ณ  ๊ทธ ์กฐ๊ฑด
  • ๋‹จ์œ„ ๋ฒกํ„ฐ, ๋‹จ์œ„ ๋ฒกํ„ฐ๋กœ์˜ ๊ตฌ๋ถ„
  • span, basis, rank์˜ ๊ฐœ๋… ์ดํ•ด
  • ๊ฐ€์šฐ์‹œ์•ˆ ์†Œ๊ฑฐ๋ฒ•(Gaussian elemination) ์ดํ•ด
  • linear projection์— ๋Œ€ํ•œ ์ดํ•ด

Variancce(๋ถ„์‚ฐ)

  • ๊ฐ ๊ฐ’๋“ค์˜ ํ‰๊ท ์œผ๋กœ๋ถ€ํ„ฐ์˜ ์ฐจ์ด์˜ ์ œ๊ณฑ ํ‰๊ท 
  • ๋ฐ์ดํ„ฐ๊ฐ€ ํ‰๊ท ์œผ๋กœ๋ถ€ํ„ฐ ์–ผ๋งˆ๋‚˜ ํผ์ ธ์žˆ๋Š”๊ฐ€
  • ๋ชจ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์„ ๊ตฌํ•  ๋• ddof=0, ํ‘œ๋ณธ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์„ ๊ตฌํ•  ๋• ddof=1 (ddof ๋ž€ delta degrees of freedom์œผ๋กœ ์ž์œ ๋„์—์„œ ์–ผ๋งˆ๋‚˜ ๋นผ์•ผํ•˜๋Š”๊ฐ€๋ฅผ ์˜๋ฏธ) ์ฆ‰, ๋ชจ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์€ n์œผ๋กœ ๋‚˜๋ˆ„๊ณ  ํ‘œ๋ณธ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์€ n-1 ๋กœ ๋‚˜๋ˆˆ๋‹ค.

Covariance(๊ณต๋ถ„์‚ฐ)

  • 1๊ฐœ์˜ ๋ณ€์ˆ˜๊ฐ€ ๋ณ€ํ™”ํ•  ๋•Œ, ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋Š” ์–ด๋– ํ•œ ์—ฐ๊ด€์„ฑ์„ ๋ณด์ด๋ฉฐ ๋ณ€ํ•˜๋Š”์ง€ ์ธก์ •ํ•œ ๊ฒƒ

๊ณต๋ถ„์‚ฐ ์ดํ•ด

  • ๊ณต๋ถ„์‚ฐ์˜ ๊ฐ’์ด ํฌ๋‹ค๋Š” ๊ฒƒ์€ ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์ด ํฌ๋‹ค๋Š” ๊ฒƒ์„ ๋œปํ•จ
  • ๋‹ค๋งŒ, ๋ณ€์ˆ˜๋“ค์˜ ์Šค์ผ€์ผ์ด ๋‹ค๋ฅด๋‹ค๋ฉด(๋‹จ์œ„๊ฐ€ ๋‹ค๋ฅด๋‹ค๋ฉด) ์‹ค์ œ ๋ณ€์ˆ˜ ์ž์ฒด์˜ ๊ธฐ์ค€ ์—†์ด ๊ทธ์ € ์Šค์ผ€์ผ์ด ํฐ ๋ณ€์ˆ˜๋“ค์€ ํฐ ๊ฐ’์„ ๋‚˜ํƒ€๋‚ด๊ฒŒ ๋œ๋‹ค.
    ํ•ด์„œ ์ด๋ฅผ ์กฐ์ ˆํ•ด์ค˜์•ผํ•จ(ํ‘œ์ค€ํ™”)
df.cov() # ๊ณต๋ถ„์‚ฐ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•-1
np.cov(s1, s2) # ๊ณต๋ถ„์‚ฐ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•-2

Correlation coefficient(์ƒ๊ด€๊ณ„์ˆ˜)

  • ๊ณต๋ถ„์‚ฐ์˜ ์Šค์ผ€์ผ์„ ์กฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๋ณ€์ˆ˜์˜ ํ‘œ์ค€ํŽธ์ฐจ๋กœ ๋‚˜๋ˆ„์–ด์ค€ ๊ฐ’
  • ์ƒ๊ด€๊ณ„์ˆ˜๋Š” -1์—์„œ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฏ€๋กœ ๊ทธ ๊ฐ’์— ๋Œ€ํ•œ ์ƒ๋Œ€์ ์ธ ๊ธฐ์ค€์ด ์žกํž˜
  • 0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์•„๋ฌด ์ƒ๊ด€๋„ ์—†๋‹ค๋Š” ์ด์•ผ๊ธฐ

\begin{align}
cor(X,Y) = r = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}
\end{align}

df.corr() # ์ƒ๊ด€๊ณ„์ˆ˜ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•-1
np.corrcoef(s1,s2) # ์ƒ๊ด€๊ณ„์ˆ˜ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•-2

Spearman correlation

  • ์œ„์—์„œ ๋ฐฐ์šด ์ƒ๊ด€๊ณ„์ˆ˜๋Š” Pearson correlation
    ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋ถ„์‚ฐ๊ณผ ๊ฐ™์€ ํ†ต๊ณ„์น˜๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์„ ๋•Œ ์‚ฌ์šฉ ๊ฐ€๋Šฅ
  • ๋ฐ์ดํ„ฐ๊ฐ€ numeric์ด ์•„๋‹ˆ๋ผ categorical ์ด๋ผ๋ฉด ๊ฐ’๋“ค์— ๋Œ€ํ•œ ์ˆœ์„œ์— ์ˆซ์ž๋ฅผ ๋ถ€์—ฌํ•˜๊ณ  ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์ธก์ •
    ์ด๊ฒŒ spearman correlation coefficvient(์ผ๋‹จ ๊ฐœ๋…๋งŒ ์•Œ์•„๋‘์ž)

Orthogonality(์ˆ˜์ง์„ฑ)

  • ๋ฒกํ„ฐ ํ˜น์€ ๋งคํŠธ๋ฆญ์Šค๊ฐ€ ์„œ๋กœ ์ˆ˜์ง์œผ๋กœ ์žˆ๋Š” ์ƒํƒœ

์ขŒํ‘œ์ƒ์— ์žˆ๋Š” ๊ฑฐ์˜ ๋ชจ๋“  ๋ฒกํ„ฐ๋Š” ๋‹ค๋ฅธ ๋ฒกํ„ฐ์™€ ์–‘/์Œ์œผ๋กœ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์•„์ฃผ ์กฐ๊ธˆ์ด๋ผ๋„ ์žˆ๋‹ค.
๋‹จ, ์ˆ˜์ง์ธ ๋ฒกํ„ฐ๋งŒ ์˜จ์ „ํžˆ ์ƒ๊ด€ ์ž์ฒด๊ฐ€ ์—†๋‹ค. (Cov=0)
๋‚ด์ ๊ฐ’์ด 0 ์ด๋ฉด ์ˆ˜์ง

๋‹จ์œ„ ๋ฒกํ„ฐ(Unit vectors)

  • ๋‹จ์œ„๊ธธ์ด๊ฐ€ 1์ธ ๋ชจ๋“  ๋ฒกํ„ฐ(ํฌ๊ธฐ๊ฐ€ 1์ธ ๋ฒกํ„ฐ)
    ex) 1์ฐจ์›(R) ๋‹จ์œ„ ๋ฒกํ„ฐ i_hat = [1]
    2์ฐจ์›(R^2) ๋‹จ์œ„ ๋ฒกํ„ฐ i_hat = [1 0], j_hat = [0 1]
    3์ฐจ์›(R^3) ๋‹จ์œ„ ๋ฒกํ„ฐ i_hat = [1 0 0], j_hat = [0 1 0], k_hat = [0 0 1]

Span

  • ์ฃผ์–ด์ง„ ๋‘ ๋ฒกํ„ฐ์˜ ์กฐํ•ฉ(ํ•ฉ ๋˜๋Š” ์ฐจ)๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ๋ฒกํ„ฐ์˜ ์ง‘ํ•ฉ(๊ณต๊ฐ„)

์„ ํ˜• ๊ด€๊ณ„์˜ ๋ฒกํ„ฐ(Linearly Dependent Vectors)

  • ๋‘ ๋ฒกํ„ฐ๊ฐ€ ๊ฐ™์€ ์„ ์ƒ์— ์žˆ๋Š” ๊ฒฝ์šฐ๋กœ ์„œ๋กœ ์ƒ์ˆ˜๋ฐฐ๊ฐ€ ๋œ๋‹ค. => ๊ฐ™์€ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋Š” ๋ฒกํ„ฐ
  • ์ด ๋‘ ๋ฒกํ„ฐ๋กœ๋Š” ์™ธ๋ถ€์˜ ์ƒˆ๋กœ์šด ๋ฒกํ„ฐ๋ฅผ ํ˜•์„ฑํ•  ์ˆ˜ ์—†๋‹ค.

๋น„์„ ํ˜• ๊ด€๊ณ„์˜ ๋ฒกํ„ฐ(Linearly Independent Vectors)

  • ๊ฐ™์€ ์„ ์ƒ์— ์žˆ์ง€ ์•Š์€ ๋‘ ๋ฒกํ„ฐ๋กœ ์„œ๋กœ ๋…๋ฆฝ๋˜์–ด์žˆ๋‹ค. => ์„œ๋กœ ๋‹ค๋ฅธ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋‹ค.
  • ๋‘ ๋ฒกํ„ฐ์˜ ์กฐํ•ฉ์„ ํ†ตํ•ด ๋‹ค๋ฅธ ๋ฒกํ„ฐ๋“ค๋„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

Basis

  • V๋ผ๋Š” ๊ณต๊ฐ„์„ ์ฑ„์šธ ์ˆ˜ ์žˆ๋Š” ์„ ํ˜• ๊ด€๊ณ„์— ์žˆ์ง€ ์•Š์€ ๋ฒกํ„ฐ๋“ค(์œ„์˜ Span ๊ฐœ๋…์„ ๊ด€์ ์„ ๋’ค์ง‘์€ ๊ฒƒ)Orthogonal Basis
  • basis ๋“ค ์ค‘์—์„œ๋„ ์„œ๋กœ ์ˆ˜์ง์ธ ์กฐํ•ฉ(์•„๋ฌด๋ž˜๋„ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ 0์ด๋‹ˆ, ์„œ๋กœ ๋ถˆํ•„์š”ํ•˜๊ฒŒ ์ •๋ณด๊ฐ€ ์•ˆ๊ฒน์นœ๋‹ค.)Orthonormal Basis
  • basis ๋“ค ์ค‘์—์„œ๋„ ์„œ๋กœ ์ˆ˜์ง์ด๋ฉด์„œ ๋™์‹œ์— ํฌ๊ธฐ(๊ธธ์ด)๊ฐ€ 1์ธ ๋ฒกํ„ฐ(๋‹จ์œ„ ๋ฒกํ„ฐ)

Rank

  • ๋งคํŠธ๋ฆญ์Šค์˜ rank๋ž€ ๋งคํŠธ๋ฆญ์Šค์˜ ์—ด์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฒกํ„ฐ๋“ค๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” span(๊ณต๊ฐ„)์˜ ์ฐจ์› => ๊ฒฐ๊ตญ์—” ๋งคํŠธ๋ฆญ์Šค ์•ˆ์— ์žˆ๋Š” ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณต๊ฐ„์˜ ์ฐจ์›(span์ด๋ž‘ ๊ฐ™์€ ๊ฐœ๋…)
  • ๋‹จ, ๋งคํŠธ๋ฆญ์Šค์˜ ์ฐจ์›์ด 2x2๋ผ๊ณ  ํ•ด์„œ ๋ฌด์กฐ๊ฑด rank=2 ์ธ ๊ฒƒ์€ ์•„๋‹˜(๋งคํŠธ๋ฆญ์Šค๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๋‘ ๋ฒกํ„ฐ๊ฐ€ ์„ ํ˜•๊ด€๊ณ„๋ฉด rank=1)

Gaussian Elimination(๊ฐ€์šฐ์‹œ์•ˆ ์†Œ๊ฑฐ๋ฒ•)

  • ์ฃผ์–ด์ง„ ๋งคํŠธ๋ฆญ์Šค ๋‚ด์˜ ๋ฒกํ„ฐ ์กฐํ•ฉ์„ ํ•จ์œผ๋กœ์จ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋ฅผ 0์˜ ๊ฐ’๋งŒ ๊ฐ–๊ฒŒ ๋งŒ๋“œ๋Š” ํ˜•ํƒœ
  • ๋งŒ์•ฝ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๊ฐ€ 0๋งŒ ๊ฐ–๋Š” ๊ฒŒ ๊ฐ€๋Šฅํ•˜๋‹ค๋ฉด, ์ด๋Š” ๋งคํŠธ๋ฆญ์Šค ๋‚ด์˜ ๋ฒกํ„ฐ๋“ค์˜ ์กฐํ•ฉ์œผ๋กœ ํ‘œํ˜„์ด ๋œ๋‹ค๋Š” ์˜๋ฏธ์ด๋ฏ€๋กœ rank ๊ฐ€ 1๊ฐœ ์ค„์–ด๋“ ๋‹ค.

Linear projections(R^2 ;2์ฐจ์› ๊ณต๊ฐ„์—์„œ)

projection ํ•˜๋Š” ๊ฒƒ๊ณผ ์œ„์˜ ๋‚ด์šฉ๋“ค์„ ์ž˜ ์ƒ๊ฐํ•ด๋ณด์ž
๊ฒฐ๊ตญ projection์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์€ ์„ ํ˜• ๋…๋ฆฝ์ด๋˜ ๋‘ ๋ฒกํ„ฐ๋ฅผ ์„ ํ˜• ์ข…์†์œผ๋กœ ๋ฐ”๊พธ๋Š” ๊ณผ์ •์ด๋‹ค.
์•„์ฃผ ๊ฐ™์ง„ ์•Š๋”๋ผ๋„ ๋‘ ๋ฒกํ„ฐ(๋งคํŠธ๋ฆญ์Šค์—์„œ ์นผ๋Ÿผ)๊ฐ€ ์–ผ์ถ” ๋งค์šฐ ๋น„์Šทํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋‹ค๋ฉด ๊ตณ์ด ์ด 2๊ฐ€์ง€๋ฅผ ๊ฐ€์ ธ๊ฐˆ ํ•„์š”๊ฐ€ ์—†์–ด์ง€๋Š” ๊ฒƒ
๋ฌผ๋ก  ์•ฝ๊ฐ„์˜ ์ •๋ณด ์†์‹ค์ด ์žˆ๊ธด ํ•˜์ง€๋งŒ ์ฐจ์› ์ž์ฒด๊ฐ€ ํ•˜๋‚˜๊ฐ€ ์ค„์–ด๋“œ๋Š” ๊ฒƒ์œผ๋กœ ๊ณ„์‚ฐ ์‹œ ๋ฉ”๋ชจ๋ฆฌ ๋“ฑ์—๋Š” ์ด๋“์ด ์ƒ๊ธด๋‹ค.

์ฆ‰, '์ฐจ์› ์ถ•์†Œ'๋ฅผ ํ•  ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์ด๋‹ค.