๐ฟ Data/์ด๋ชจ์ ๋ชจ
Hypothesis Test(๊ฐ์ค๊ฒ์ )
T-test๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ํฉ์ ๋ํด ์ค๋ช ํ๊ณ , ๊ทธ ์ํฉ์์ ์ด๋ป๊ฒ ๊ฐ์ค์ ์ธ์ฐ๋์ง T-test์ ์ ์ฒด์ ์ธ ์์๋ฅผ ํ๋ ์ค๋ช ํด์ฃผ์ธ์. ์ด๋ ํ ๊ฐ์ค์ ์ธ์ ๋์ง ์ ์ด๋ฌํ ๊ฐ์ค์ ์ธ์ฐ๊ฒ ๋์๋์ง ์ T-test๋ฅผ ์ ํํ๋์ง NBA์ NBA G(๋ง์ด๋๋ฆฌ๊ทธ)์ ๋๊ตฌ์ ์๋ค์ ํค๋ฅผ ๋น๊ตํด๋ณด๊ณ ์ถ์ต๋๋ค. ๊ท๋ฌด๊ฐ์ค(H0) : NBA ๋ฉ์ด์ ๋ฆฌ๊ทธ ์ ์๋ค์ ํค์ ๋ง์ด๋ ๋ฆฌ๊ทธ ์ ์๋ค์ ํค ํ๊ท ์ ์ฐจ์ด๊ฐ ์๋ค. ๋๋ฆฝ๊ฐ์ค(H1) : NBA ๋ฉ์ด์ ๋ฆฌ๊ทธ ์ ์๋ค์ ํค์ ๋ง์ด๋ ๋ฆฌ๊ทธ ์ ์๋ค์ ํค ํ๊ท ์ ์ฐจ์ด๊ฐ ์๋ค. ์ผ๋จ ํค ์์ฒด๋ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ , ๋๊ตฌ์ ์๋ค์ ํค์ ๋ฐ๋ฅธ ์ํฅ์ ๋น๊ตํด๋ณด๊ณ ์ถ์์ต๋๋ค. ๋ณด๊ธฐ์ ์ํฉ์ ์ฝ๊ณ , A/B Test์ ๋ํด์ ์๊ฐํด ๋ณด์ธ์. ๐ก ๋ณด๊ธฐ) ์ฌ๋ฌ๋ถ์ ๊ทธ๋ก์ค ํดํนํ์ DA๋ก ์ทจ์งํ์์ต๋๋ค. ๋ง์ฝ ..
Basic Derivative(์ถ๊ฐ)
๋จ์์ ํํ๊ท๋ฅผ ์ด์ฉํ์ฌ Binary Classification Prediction์ ํ๊ณ ์ ํ๋ค๋ฉด, ๋จ์์ ํ๋ผ์ธ์ ์ด๋ ํ ๋ณํ๋ฅผ ์ฃผ๋ฉด ๋ ๊น์? Binary classification pred๋ฅผ ํ๋ค๋ ๋ง์, ์ฆ ๊ฒฐ๊ณผ๊ฐ์ด 0๊ณผ 1๋ก ๊ตฌ๋ถ๋๋ ๊ฒ์ ๋ํ ๋ถ๋ฅ ์์ธก์ ํ๋ ๊ฒ ๊ทธ๋ฌ๋ ๋จ์์ ํํ๊ท $$y=wx+b$$ ๋ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์์ธก๊ฐ์ด ์ค์์ด๊ธฐ ๋๋ฌธ์ ์ข ์๋ณ์์ ๋ฒ์๊ฐ ์ค์, ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ข ์๋ณ์๋ binaryํ 0๊ณผ 1์ด๋ค. ์ด ๋, ์ฐ๋ฆฌ๋ ํ์ฑํ ํจ์๋ก Logistic Regression์ ์ฌ์ฉํด์ผํ๋ค. ์ด๋ ๊ฒ ๋๋ฉด $$wx+b$$์ ๋ํด์ 0๊ณผ 1 ์ฌ์ด์์ ๊ฐ์ด ๋์จ๋ค. ์ด ๋, ๊ฐ์ด 0.5๋ณด๋ค ํฌ๋ฉด 1, ์์ผ๋ฉด 0์ผ๋ก ๋ณด๋ด๋ ๊ฒ์ผ๋ก binary ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํ๋ค. sigmoid ํจ์์ Ch..
EDA(Exploratory Confirmatory Analysis; ํ์์ ์๋ฃ ๋ถ์)
๋ค์ ๋งํฌ๋ ๋ค์ํ ์๊ฐํ ๋ฐฉ๋ฒ๋ค์ด ๋์์๋ Seaborn๊ณผ Matplotlib ์ ๊ณต์๋ฌธ์์ ๋๋ค. ๋งํฌ ์์ ์๊ฐํ ๋ฐฉ๋ฒ ์ค ํ๋๋ฅผ ์ ํํ์ฌ, ๊ณ ๋ฅธ ์ด์ ์ ํด๋น ์๊ฐํ ๋ฐฉ๋ฒ์ ์ฅ์ ์ ์๊ฐํด ์ฃผ์ธ์. ์ ๋ seaborn์ violinplot์ ์ ํํ์ต๋๋ค! ๋จผ์ violinplot์ boxplot๊ณผ ๋์ผํ๊ฒ ์ผ๋ณ๋, ์ฐ์ํ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํ ๊ทธ๋ํ์ ๋๋ค. ๋ด์ฉ ์์ฒด๋ boxplot๊ณผ ๊ฐ์ผ๋ ์ปค๋ ๋ฐ๋ ๊ณก์ ์ ๋ํด, ์นดํ ๊ณ ๋ฆฌ๊ฐ์ ๋ฐ๋ฅธ ๊ฐ ๋ถํฌ์ ์ค์ ๋ฐ์ดํฐ ๋๋ ์ ์ฒด ํ์์ ๋ณด์ฌ์ค๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ํ์ฆ์ ๋ฐ์ดํฐ ๋ถ์(CDA: Confirmatory Data Analysis)๊ณผ ํ์์ ์๋ฃ ๋ถ์(EDA: Exploratory Data Analysis)์ ์ฐจ์ด์ ์ ์ค๋ช ํ๊ณ ,๊ฐ๊ฐ ์ด๋ค ๊ฒฝ์ฐ์ ..
PCA(Principal Component Analysis)
PCA(Principal Component Analysis); ์ฃผ์ฑ๋ถ ๋ถ์ ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ ๋ฐ์ดํฐ๋ก ํ์์ํค๋ ๊ธฐ๋ฒ์ ๋งํ๋ค. ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉด์ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ ๋ถํฌ๋ ๋ฐ์ดํฐ๋ค์ ์ฃผ์ฑ๋ถ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทธ๋ฆผ์ฒ๋ผ ๋ฐ์ดํฐ๊ฐ 2์ฐจ์ ์ขํํ๋ฉด์ n๊ฐ์ ์ ๋ค๋ก ๋ถํฌ๋์ด ์์ ๋, ๋ฐ์ดํฐ๋ค์ ๋ถํฌ ํน์ฑ์ ๊ฐ์ฅ ์ ์ค๋ช ํด์ฃผ๋ ๋ฒกํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ๋จผ์ ๋ฐ์ดํฐ๋ค์ ๋ถ์ฐ(ํฉ์ด์ง ์ ๋)์ด ๊ฐ์ฅ ํฐ ๋ฐฉํฅ๋ฒกํฐ์ธ e1์ ์ค์ ํ๊ณ e1๊ณผ ์์ง์ด๋ฉด์ ๋ฐ์ดํฐ์ ๋ถ์ฐ์ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ๋ฒกํฐ(e2)๋ฅผ ์ฐพ๋๋ค. ์ฃผ์ฑ๋ถ ๋ฒกํฐ e1, e2์ ์ด์ฉํด์ ํ์ํ์ ๋ฐ์ดํฐ๋ค์ ํํํ ์ ์๊ฒ ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฑ์ ๋ฐ์ดํฐ๊ฐ '๊ตญ์ด', '์์ด', '์ํ', '๊ณผํ'์ด ์์ ๋, (๊ตญ์ด, ์์ด)๋ฅผ ๋ฌธ๊ณผ ๊ณํต, (์ํ, ..
KNN(K-Nearest Neighbors)
K-Nearest Neighbors : input feature์ ๋ํด ์ต๊ทผ์ k๊ฐ์ ๋ฐ์ดํฐ์ f(x)๊ฐ์ ๋ค์๊ฒฐ ํ์์ผ๋ก ๋ฐ๋ผ๊ฐ๋ ๋ฐฉ์ Nonparametric approach(๋น๋ชจ์ ์ ๊ทผ) - ๋ฐ์ดํฐ๊ฐ ํน์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ์ง ์๋๋ค. - train data๊ฐ ๋ง์์๋ก ํ๋ผ๋ฏธํฐ์ ๊ฐฏ์๋ ๋ง์์ง๋ค. (๋ชจ์ ์ ๊ทผ๊ณผ ๋ค๋ฅด๊ฒ ํ๋ผ๋ฏธํฐ์ ๊ฐฏ์๊ฐ ํ์ ๋์ง ์๋๋ค.) Classification : ์์์ k์ ๋ํด input feature ์ต๊ทผ์ k๊ฐ์ ๋ฐ์ดํฐ label์ ๋ฐ๋ผ ๋ค์๊ฒฐ๋ก ๊ฒฐ์ Regression : ๋ง์ฐฌ๊ฐ์ง๋ก ์ต๊ทผ์ k๊ฐ์ ๋ฐ์ดํฐ ๊ฐ์ ๋ํ ํ๊ท ํน์ linear regression Curse of Dimensionality(์ฐจ์์ ์ ์ฃผ) : ๋ฐ์ดํฐ์ ์ฐจ์์ด ์ปค์ง์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ๊ฒ ..