๐ฟ Data/์ด๋ชจ์ ๋ชจ
Linear Algebra + (Cov ;๊ณต๋ถ์ฐ, Cor ; ์๊ด๊ณ์)
titanic ๋ฐ์ดํฐ์ ๋ํ ์๊ด๊ณ์๋ฅผ ํํํ heatmap heatmap์ ํตํด ํ์ธํ ์ ์๋ ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ๋ ๋ฌด์์ธ๊ฐ? titanic data์์ ์๋ ์นผ๋ผ(feature) ๋ณ๋ก ์/์/๋ฌด ์๊ด๊ด๊ณ์ ๋ํด์ ์ ์ ์๋ค. ์๋ฅผ ๋ค์ด 'survived'์ 'adult_male'์ ์๊ด๊ณ์๋ -0.56 ๋จ์ํ๊ฒ ์ด ์์น๋ง ๋๊ณ ๋ณด๋ฉด '์์กด ์ฌ๋ถ์ ์ฑ์ธ ์ด๋ฅธ ์ฌ๋ถ๊ฐ ์์ ์๊ด๊ด๊ณ' ์ฆ, ์ฑ์ธ ๋จ์ฑ์ด ๋ ์์กด์จ์ด ๋ฎ์๋ค๋ ์ด์ผ๊ธฐ ์ฌ๊ธฐ์ ํ ๋ฒ ๋ ํด์ํ๋ฉด ์ฑ์ธ ๋จ์ฑ๋ค์ด ๋ค๋ฅธ ์ฌ๋๋ค์ ์์กด์ ๋๋ค๊ฐ ํฌ์๋๋ค ๋ ๋ฑ์ ํด์์ด ๊ฐ๋ฅ ๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์์ ์์์ ํ์ธํ๊ณ ๊ทธ ๋์ ์ฐ๊ด์ฑ ๋ฐ ์ฐจ์ด์ ์ฐ๊ด์ฑ(๊ณตํต์ ) : ๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์ ๋ชจ๋ ํน์ ๋ฒกํฐ(ํน์ ์นผ๋ผ, ์ด, ..
Verctor, Matrix, DataFrame
Vector, Matrix์ DataFrame์ ์ฐจ์ด์ ์ ๋ฌด์์ผ๊น? Vector : 1์ฐจ์ ๋ฐ์ดํฐ ๊ตฌ์กฐ Matrix : 2์ฐจ์ ๋ฐ์ดํฐ ๊ตฌ์กฐ, ๋ฐ์ดํฐ ํ์ ์ด ๋ชจ๋ ๋์ผํด์ผํ๋ค. (์นผ๋ผ ํ๋๋ฅผ ๋ฒกํฐ๋ผ ๋ณด๋ฉด ๋ฒกํฐ์ ๋์ด)import numpy as np np.matrix() # ๋ํ์ด ์์ ์๋ค. DataFrame : 2์ฐจ์ ๋ฐ์ดํฐ ๊ตฌ์กฐ, ์นผ๋ผ๋ง๋ค ๋ฐ์ดํฐ ํ์ ์ด ๋ค๋ฅผ ์ ์๋ค. (๋ง์ฐฌ๊ฐ์ง๋ก, ์นผ๋ผ ํ๋๋ฅผ ๋ฒกํฐ๋ผ ๋ณด๋ฉด ๋ฒกํฐ์ ๋์ด)import pandas as pd pd.DataFrame() # ํ๋ค์ค ์์ ์๋ค. ๋ณด๊ธฐ์ ๊ทธ๋ฆผ์ ์ด๋ฏธ์ง ํน์ ํ ์คํธ๋ฅผ ๋ฒกํฐํํ๋ ๊ณผ์ ์ ๋๋ค. ์ด์ฒ๋ผ ๋ฒกํฐํ๋ฅผ ์งํํ๋ ์ด์ ๊ฐ ๋ฌด์์ผ๊น? ์ด๋ฏธ์ง๋ฅผ ๋ฒกํฐํํ๋ ๊ณผ์ (Computer Vision; ์ปดํจํฐ ๋น์ ) ํ ์คํธ๋ฅผ ๋ฒกํฐํํ๋ ๊ณผ์ (N..
Bayesian Statistics(๋ฒ ์ด์ฆ์ฃผ์) vs Frequentist statistics(๋น๋์ฃผ์)
- Bayesian statistics์ Frequentist statistics์ ์ฐจ์ด์ ์ ๋ํด ์๊ฐํด๋ณด๊ณ , ๋ฐ์ดํฐ ๋ถ์ ์ ์ธ์ , ์ด๋ ๊ฒ์ ์ฌ์ฉํด์ผ ํจ์จ์ ์ธ์ง ๋ ผํด๋ณด์ธ์. 1. ๋ฒ ์ด์ฆ์ฃผ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ด์ฉํ์ฌ $$ P(A|B) = P(B|A) * P(A) / P(B) $$ ์ฌ๊ธฐ์ A๋ฅผ H(๊ฐ์ค), B๋ฅผ ์๋ก์ด ๋ฐ์ดํฐ D๋ผ๊ณ ๊ฐ์ $$ P(H|D) = P(D|B) * P(H) / P(E) $$ ์ ๊ฐ์ ์์ด ๋์จ๋ค. ์ฌ๊ธฐ์ $$P(H)$$ ๋ ์ฌ์ ํ๋ฅ ๋ก D๋ผ๋ ๋ฐ์ดํฐ๋ฅผ ์๊ธฐ ์ ๊ฐ์ค์ ๋ํ ํ๋ฅ ๊ฐ(ํํ ํต๋ ์ ์ผ๋ก ์ ์ฉ๋๋ ๊ฐ) $$P(D|H)$$๋ ๊ฐ๋ฅ๋(Likelihood ; ์ฐ๋)๋ก ํด์ํ์๋ฉด '์ด๋ค ๊ฐ์ค H๊ฐ ๋ง๋ค๊ณ ๊ฐ์ ํ์ ๋, ๋ฐ์ดํฐ D๊ฐ ๋์ฌ ํ๋ฅ '์ ๋๋ค. ์ฆ, ์ฐ๋ฆฌ๊ฐ ์ฌ์ ..
ANOVA ์์
- Anova test๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ํฉ์ ๋ํด ์ค๋ช ํ๊ณ , ๊ทธ ์ํฉ์์ ์ด๋ป๊ฒ ๊ฐ์ค์ ์ธ์ฐ๋์ง Anova test์ ์ ์ฒด์ ์ธ ์์๋ฅผ ํ๋ ์ค๋ช ํด์ฃผ์ธ์.** (์๋ ์ฌํญ์ ํ์์ ์ผ๋ก ๋ค์ด๊ฐ์ผ ํฉ๋๋ค.) ์ด๋ ํ ๊ฐ์ค์ ์ธ์ ๋์ง ์ ์ด๋ฌํ ๊ฐ์ค์ ์ธ์ฐ๊ฒ ๋์๋์ง ์ anova test๋ฅผ ์ ํํ๋์ง ์ฆ๊ถ์ฌ ์ฑ ๋ฉ๋ด์ ์๋ก์ด ์์์ ๋๊ณ ์ฒญ๋ ์ธต/์ค๋ ์ธต/์ฅ๋ ์ธต ์ ๋๋์ด ์ด์ฉ ๊ณ ๊ฐ ์ ๋ณํ๋ฅผ ๋ณด๊ณ ์ถ์ ๋ ์ฌ์ฉํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ์ ์ฐจ ์ฆ๊ถ์ฌ์ ์ํ๊ณผ ์์๋ฃ ๋ฑ์ ๋น์ทํด์ ธ๊ฐ๋ ๋์ ์ฌ๋๋ค์ด ์ฆ๊ถ์ฌ๋ฅผ ์ ํํ๋ ์ค์ํ ๊ธฐ์ค์ด MTS์ ๋์์ธ์ด๋ผ ์๊ฐํฉ๋๋ค. ์ด ๋, ๊ฐ ์ฆ๊ถ์ฌ ๋ณ๋ก ์ฃผ ๊ณ ๊ฐ์ ์ฐ๋ น์ธต์ ํ๊ฒํ ํ๊ณ (๊ฒฝ์ ์ ์ธ ์๋๊ณผ ์ฐ๋ น์ธต์ ํ์ฐ์ ์ผ๋ก ์๊ด๊ด๊ณ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ทธ์ ๋ง๋ ๋์์ธ ์์ ์ ํจ์ฑ์ ๊ฒ์ฆํ ..
Hypothesis Test(๊ฐ์ค ๊ฒ์ ) 2
chi-squre test๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ํฉ์ ๋ํด ์ค๋ช ํ๊ณ , ๊ทธ ์ํฉ์์ ์ด๋ป๊ฒ ๊ฐ์ค์ ์ธ์ฐ๋์ง chi-square test์ ์ ์ฒด์ ์ธ ์์๋ฅผ ํ๋ ์ค๋ช ํด์ฃผ์ธ์. (์๋ ์ฌํญ์ ํ์์ ์ผ๋ก ๋ค์ด๊ฐ์ผ ํฉ๋๋ค.) ๊ท๋ฌด๊ฐ์ค : ์ฐ๋ น๊ณผ ์ฝ๋ก๋ ๊ฐ์ผ ์ฌ๋ถ๋ ๋ ๋ฆฝ์ ์ด๋ค. ๋๋ฆฝ๊ฐ์ค : ์ฐ๋ น๊ณผ ์ฝ๋ก๋ ๊ฐ์ผ ์ฌ๋ถ๋ ๋ ๋ฆฝ์ ์ด์ง ์๋ค. ์ด๋ ํ ๊ฐ์ค์ ์ธ์ ๋์ง ์ ์ด๋ฌํ ๊ฐ์ค์ ์ธ์ฐ๊ฒ ๋์๋์ง ์ chi-square test ๋ฅผ ์ ํํ๋์ง (+ ์ฌ์ ๊ฒ์ฆ์ ์ด๋ฃจ์ด ์ก๋์ง?) ์ฝ๋ก๋ ์ดํ, ์ธ๋ก ์์ ๋์ด๋ ๋ณ ๊ฐ์ผ์ ๋ํ ์ด์ผ๊ธฐ๋ฅผ ๋ง์ด ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.(์ฌ์ค์ผ์ง ๊ถ๊ธ) ๋จ์ํ 2-sample ์นด์ด์ ๊ณฑ ๊ฒ์ ์ผ๋ก ์ ํํ์์ต๋๋ค. ์ ๊ท์ฑ(์ ๊ท๋ถํฌ)์ ํ์ธํ๋ ๊ฒ์ด ์ ์ค์ํ ๊น์? ์์ ๋กญ๊ฒ ๋ ผ์ํด์ฃผ์ธ์! ์ ๊ท๋ถํฌ๋ผ๋ ๊ฒ ์์ฒด๊ฐ ..