๐Ÿ’ฟ Data/์ด๋ชจ์ €๋ชจ

    Linear Algebra + (Cov ;๊ณต๋ถ„์‚ฐ, Cor ; ์ƒ๊ด€๊ณ„์ˆ˜)

    titanic ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ํ‘œํ˜„ํ•œ heatmap heatmap์„ ํ†ตํ•ด ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ด€๊ณ„๋Š” ๋ฌด์—‡์ธ๊ฐ€? titanic data์•ˆ์— ์žˆ๋Š” ์นผ๋Ÿผ(feature) ๋ณ„๋กœ ์–‘/์Œ/๋ฌด ์ƒ๊ด€๊ด€๊ณ„์— ๋Œ€ํ•ด์„œ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 'survived'์™€ 'adult_male'์˜ ์ƒ๊ด€๊ณ„์ˆ˜๋Š” -0.56 ๋‹จ์ˆœํ•˜๊ฒŒ ์ด ์ˆ˜์น˜๋งŒ ๋†“๊ณ  ๋ณด๋ฉด '์ƒ์กด ์—ฌ๋ถ€์™€ ์„ฑ์ธ ์–ด๋ฅธ ์—ฌ๋ถ€๊ฐ€ ์Œ์˜ ์ƒ๊ด€๊ด€๊ณ„' ์ฆ‰, ์„ฑ์ธ ๋‚จ์„ฑ์ด ๋” ์ƒ์กด์œจ์ด ๋‚ฎ์•˜๋‹ค๋Š” ์ด์•ผ๊ธฐ ์—ฌ๊ธฐ์„œ ํ•œ ๋ฒˆ ๋” ํ•ด์„ํ•˜๋ฉด ์„ฑ์ธ ๋‚จ์„ฑ๋“ค์ด ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์˜ ์ƒ์กด์„ ๋•๋‹ค๊ฐ€ ํฌ์ƒ๋๋‹ค ๋Š” ๋“ฑ์˜ ํ•ด์„์ด ๊ฐ€๋Šฅ ๊ณต๋ถ„์‚ฐ๊ณผ ์ƒ๊ด€๊ณ„์ˆ˜์˜ ์ˆ˜์‹์„ ํ™•์ธํ•˜๊ณ  ๊ทธ ๋‘˜์˜ ์—ฐ๊ด€์„ฑ ๋ฐ ์ฐจ์ด์  ์—ฐ๊ด€์„ฑ(๊ณตํ†ต์ ) : ๊ณต๋ถ„์‚ฐ๊ณผ ์ƒ๊ด€๊ณ„์ˆ˜ ๋ชจ๋‘ ํŠน์ • ๋ฒกํ„ฐ(ํ˜น์€ ์นผ๋Ÿผ, ์—ด, ..

    Verctor, Matrix, DataFrame

    Vector, Matrix์™€ DataFrame์˜ ์ฐจ์ด์ ์€ ๋ฌด์—‡์ผ๊นŒ? Vector : 1์ฐจ์› ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ Matrix : 2์ฐจ์› ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ, ๋ฐ์ดํ„ฐ ํƒ€์ž…์ด ๋ชจ๋‘ ๋™์ผํ•ด์•ผํ•œ๋‹ค. (์นผ๋Ÿผ ํ•˜๋‚˜๋ฅผ ๋ฒกํ„ฐ๋ผ ๋ณด๋ฉด ๋ฒกํ„ฐ์˜ ๋‚˜์—ด)import numpy as np np.matrix() # ๋„˜ํŒŒ์ด ์•ˆ์— ์žˆ๋‹ค. DataFrame : 2์ฐจ์› ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ, ์นผ๋Ÿผ๋งˆ๋‹ค ๋ฐ์ดํ„ฐ ํƒ€์ž…์ด ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. (๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์นผ๋Ÿผ ํ•˜๋‚˜๋ฅผ ๋ฒกํ„ฐ๋ผ ๋ณด๋ฉด ๋ฒกํ„ฐ์˜ ๋‚˜์—ด)import pandas as pd pd.DataFrame() # ํŒ๋‹ค์Šค ์•ˆ์— ์žˆ๋‹ค. ๋ณด๊ธฐ์˜ ๊ทธ๋ฆผ์€ ์ด๋ฏธ์ง€ ํ˜น์€ ํ…์ŠคํŠธ๋ฅผ ๋ฒกํ„ฐํ™”ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๋ฒกํ„ฐํ™”๋ฅผ ์ง„ํ–‰ํ•˜๋Š” ์ด์œ ๊ฐ€ ๋ฌด์—‡์ผ๊นŒ? ์ด๋ฏธ์ง€๋ฅผ ๋ฒกํ„ฐํ™”ํ•˜๋Š” ๊ณผ์ •(Computer Vision; ์ปดํ“จํ„ฐ ๋น„์ „) ํ…์ŠคํŠธ๋ฅผ ๋ฒกํ„ฐํ™”ํ•˜๋Š” ๊ณผ์ •(N..

    Bayesian Statistics(๋ฒ ์ด์ฆˆ์ฃผ์˜) vs Frequentist statistics(๋นˆ๋„์ฃผ์˜)

    - Bayesian statistics์™€ Frequentist statistics์˜ ์ฐจ์ด์ ์— ๋Œ€ํ•ด ์ƒ๊ฐํ•ด๋ณด๊ณ , ๋ฐ์ดํ„ฐ ๋ถ„์„ ์‹œ ์–ธ์ œ, ์–ด๋Š ๊ฒƒ์„ ์‚ฌ์šฉํ•ด์•ผ ํšจ์œจ์ ์ธ์ง€ ๋…ผํ•ด๋ณด์„ธ์š”. 1. ๋ฒ ์ด์ฆˆ์ฃผ์˜ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ์ด์šฉํ•˜์—ฌ $$ P(A|B) = P(B|A) * P(A) / P(B) $$ ์—ฌ๊ธฐ์„œ A๋ฅผ H(๊ฐ€์„ค), B๋ฅผ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ D๋ผ๊ณ  ๊ฐ€์ • $$ P(H|D) = P(D|B) * P(H) / P(E) $$ ์™€ ๊ฐ™์€ ์‹์ด ๋‚˜์˜จ๋‹ค. ์—ฌ๊ธฐ์„œ $$P(H)$$ ๋Š” ์‚ฌ์ „ํ™•๋ฅ ๋กœ D๋ผ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์•Œ๊ธฐ ์ „ ๊ฐ€์„ค์— ๋Œ€ํ•œ ํ™•๋ฅ ๊ฐ’(ํ”ํžˆ ํ†ต๋…์ ์œผ๋กœ ์ ์šฉ๋˜๋Š” ๊ฐ’) $$P(D|H)$$๋Š” ๊ฐ€๋Šฅ๋„(Likelihood ; ์šฐ๋„)๋กœ ํ•ด์„ํ•˜์ž๋ฉด '์–ด๋–ค ๊ฐ€์„ค H๊ฐ€ ๋งž๋‹ค๊ณ  ๊ฐ€์ •ํ–ˆ์„ ๋•Œ, ๋ฐ์ดํ„ฐ D๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ '์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์ „..

    ANOVA ์˜ˆ์‹œ

    - Anova test๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ™ฉ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ , ๊ทธ ์ƒํ™ฉ์—์„œ ์–ด๋–ป๊ฒŒ ๊ฐ€์„ค์„ ์„ธ์šฐ๋Š”์ง€ Anova test์˜ ์ „์ฒด์ ์ธ ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.** (์•„๋ž˜ ์‚ฌํ•ญ์€ ํ•„์ˆ˜์ ์œผ๋กœ ๋“ค์–ด๊ฐ€์•ผ ํ•ฉ๋‹ˆ๋‹ค.) ์–ด๋– ํ•œ ๊ฐ€์„ค์„ ์„ธ์› ๋Š”์ง€ ์™œ ์ด๋Ÿฌํ•œ ๊ฐ€์„ค์„ ์„ธ์šฐ๊ฒŒ ๋˜์—ˆ๋Š”์ง€ ์™œ anova test๋ฅผ ์„ ํƒํ–ˆ๋Š”์ง€ ์ฆ๊ถŒ์‚ฌ ์•ฑ ๋ฉ”๋‰ด์˜ ์ƒˆ๋กœ์šด ์‹œ์•ˆ์„ ๋‘๊ณ  ์ฒญ๋…„์ธต/์ค‘๋…„์ธต/์žฅ๋…„์ธต ์„ ๋‚˜๋ˆ„์–ด ์ด์šฉ ๊ณ ๊ฐ ์ˆ˜ ๋ณ€ํ™”๋ฅผ ๋ณด๊ณ  ์‹ถ์„ ๋•Œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ ์ฐจ ์ฆ๊ถŒ์‚ฌ์˜ ์ƒํ’ˆ๊ณผ ์ˆ˜์ˆ˜๋ฃŒ ๋“ฑ์€ ๋น„์Šทํ•ด์ ธ๊ฐ€๋Š” ๋•Œ์— ์‚ฌ๋žŒ๋“ค์ด ์ฆ๊ถŒ์‚ฌ๋ฅผ ์„ ํƒํ•˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ค€์ด MTS์˜ ๋””์ž์ธ์ด๋ผ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ, ๊ฐ ์ฆ๊ถŒ์‚ฌ ๋ณ„๋กœ ์ฃผ ๊ณ ๊ฐ์˜ ์—ฐ๋ น์ธต์„ ํƒ€๊ฒŸํŒ…ํ•˜๊ณ (๊ฒฝ์ œ์ ์ธ ์†Œ๋“๊ณผ ์—ฐ๋ น์ธต์€ ํ•„์—ฐ์ ์œผ๋กœ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ์— ๋งž๋Š” ๋””์ž์ธ ์‹œ์•ˆ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ• ..

    Hypothesis Test(๊ฐ€์„ค ๊ฒ€์ •) 2

    chi-squre test๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ™ฉ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ , ๊ทธ ์ƒํ™ฉ์—์„œ ์–ด๋–ป๊ฒŒ ๊ฐ€์„ค์„ ์„ธ์šฐ๋Š”์ง€ chi-square test์˜ ์ „์ฒด์ ์ธ ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. (์•„๋ž˜ ์‚ฌํ•ญ์€ ํ•„์ˆ˜์ ์œผ๋กœ ๋“ค์–ด๊ฐ€์•ผ ํ•ฉ๋‹ˆ๋‹ค.) ๊ท€๋ฌด๊ฐ€์„ค : ์—ฐ๋ น๊ณผ ์ฝ”๋กœ๋‚˜ ๊ฐ์—ผ ์—ฌ๋ถ€๋Š” ๋…๋ฆฝ์ ์ด๋‹ค. ๋Œ€๋ฆฝ๊ฐ€์„ค : ์—ฐ๋ น๊ณผ ์ฝ”๋กœ๋‚˜ ๊ฐ์—ผ ์—ฌ๋ถ€๋Š” ๋…๋ฆฝ์ ์ด์ง€ ์•Š๋‹ค. ์–ด๋– ํ•œ ๊ฐ€์„ค์„ ์„ธ์› ๋Š”์ง€ ์™œ ์ด๋Ÿฌํ•œ ๊ฐ€์„ค์„ ์„ธ์šฐ๊ฒŒ ๋˜์—ˆ๋Š”์ง€ ์™œ chi-square test ๋ฅผ ์„ ํƒํ–ˆ๋Š”์ง€ (+ ์‚ฌ์ „ ๊ฒ€์ฆ์€ ์ด๋ฃจ์–ด ์กŒ๋Š”์ง€?) ์ฝ”๋กœ๋‚˜ ์ดํ›„, ์–ธ๋ก ์—์„œ ๋‚˜์ด๋Œ€ ๋ณ„ ๊ฐ์—ผ์— ๋Œ€ํ•œ ์ด์•ผ๊ธฐ๋ฅผ ๋งŽ์ด ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.(์‚ฌ์‹ค์ผ์ง€ ๊ถ๊ธˆ) ๋‹จ์ˆœํ•œ 2-sample ์นด์ด์ œ๊ณฑ ๊ฒ€์ •์œผ๋กœ ์„ ํƒํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ •๊ทœ์„ฑ(์ •๊ทœ๋ถ„ํฌ)์„ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด ์™œ ์ค‘์š”ํ• ๊นŒ์š”? ์ž์œ ๋กญ๊ฒŒ ๋…ผ์˜ํ•ด์ฃผ์„ธ์š”! ์ •๊ทœ๋ถ„ํฌ๋ผ๋Š” ๊ฒƒ ์ž์ฒด๊ฐ€ ..