๐Ÿ’ฟ Data/์ด๋ชจ์ €๋ชจ

    Hypothesis Test(๊ฐ€์„ค๊ฒ€์ •)

    T-test๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ™ฉ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ , ๊ทธ ์ƒํ™ฉ์—์„œ ์–ด๋–ป๊ฒŒ ๊ฐ€์„ค์„ ์„ธ์šฐ๋Š”์ง€ T-test์˜ ์ „์ฒด์ ์ธ ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. ์–ด๋– ํ•œ ๊ฐ€์„ค์„ ์„ธ์› ๋Š”์ง€ ์™œ ์ด๋Ÿฌํ•œ ๊ฐ€์„ค์„ ์„ธ์šฐ๊ฒŒ ๋˜์—ˆ๋Š”์ง€ ์™œ T-test๋ฅผ ์„ ํƒํ–ˆ๋Š”์ง€ NBA์™€ NBA G(๋งˆ์ด๋„ˆ๋ฆฌ๊ทธ)์˜ ๋†๊ตฌ์„ ์ˆ˜๋“ค์˜ ํ‚ค๋ฅผ ๋น„๊ตํ•ด๋ณด๊ณ ์‹ถ์Šต๋‹ˆ๋‹ค. ๊ท€๋ฌด๊ฐ€์„ค(H0) : NBA ๋ฉ”์ด์ € ๋ฆฌ๊ทธ ์„ ์ˆ˜๋“ค์˜ ํ‚ค์™€ ๋งˆ์ด๋„ˆ ๋ฆฌ๊ทธ ์„ ์ˆ˜๋“ค์˜ ํ‚ค ํ‰๊ท ์€ ์ฐจ์ด๊ฐ€ ์—†๋‹ค. ๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : NBA ๋ฉ”์ด์ € ๋ฆฌ๊ทธ ์„ ์ˆ˜๋“ค์˜ ํ‚ค์™€ ๋งˆ์ด๋„ˆ ๋ฆฌ๊ทธ ์„ ์ˆ˜๋“ค์˜ ํ‚ค ํ‰๊ท ์€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. ์ผ๋‹จ ํ‚ค ์ž์ฒด๋Š” ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๊ณ , ๋†๊ตฌ์„ ์ˆ˜๋“ค์˜ ํ‚ค์— ๋”ฐ๋ฅธ ์˜ํ–ฅ์„ ๋น„๊ตํ•ด๋ณด๊ณ ์‹ถ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณด๊ธฐ์˜ ์ƒํ™ฉ์„ ์ฝ๊ณ , A/B Test์— ๋Œ€ํ•ด์„œ ์ƒ๊ฐํ•ด ๋ณด์„ธ์š”. ๐Ÿ’ก ๋ณด๊ธฐ) ์—ฌ๋Ÿฌ๋ถ„์€ ๊ทธ๋กœ์Šค ํ•ดํ‚นํŒ€์˜ DA๋กœ ์ทจ์งํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ..

    Basic Derivative(์ถ”๊ฐ€)

    Basic Derivative(์ถ”๊ฐ€)

    ๋‹จ์ˆœ์„ ํ˜•ํšŒ๊ท€๋ฅผ ์ด์šฉํ•˜์—ฌ Binary Classification Prediction์„ ํ•˜๊ณ ์ž ํ•œ๋‹ค๋ฉด, ๋‹จ์ˆœ์„ ํ˜•๋ผ์ธ์— ์–ด๋– ํ•œ ๋ณ€ํ™”๋ฅผ ์ฃผ๋ฉด ๋ ๊นŒ์š”? Binary classification pred๋ฅผ ํ•œ๋‹ค๋Š” ๋ง์€, ์ฆ‰ ๊ฒฐ๊ณผ๊ฐ’์ด 0๊ณผ 1๋กœ ๊ตฌ๋ถ„๋˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜ ์˜ˆ์ธก์„ ํ•˜๋Š” ๊ฒƒ ๊ทธ๋Ÿฌ๋‚˜ ๋‹จ์ˆœ์„ ํ˜•ํšŒ๊ท€ $$y=wx+b$$ ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ์˜ˆ์ธก๊ฐ’์ด ์‹ค์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ์ข…์†๋ณ€์ˆ˜์˜ ๋ฒ”์œ„๊ฐ€ ์‹ค์ˆ˜, ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ์ข…์†๋ณ€์ˆ˜๋Š” binaryํ•œ 0๊ณผ 1์ด๋‹ค. ์ด ๋•Œ, ์šฐ๋ฆฌ๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ Logistic Regression์„ ์‚ฌ์šฉํ•ด์•ผํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด $$wx+b$$์— ๋Œ€ํ•ด์„œ 0๊ณผ 1 ์‚ฌ์ด์—์„œ ๊ฐ’์ด ๋‚˜์˜จ๋‹ค. ์ด ๋•Œ, ๊ฐ’์ด 0.5๋ณด๋‹ค ํฌ๋ฉด 1, ์ž‘์œผ๋ฉด 0์œผ๋กœ ๋ณด๋‚ด๋Š” ๊ฒƒ์œผ๋กœ binary ๋ถ„๋ฅ˜๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค. sigmoid ํ•จ์ˆ˜์™€ Ch..

    EDA(Exploratory Confirmatory Analysis; ํƒ์ƒ‰์  ์ž๋ฃŒ ๋ถ„์„)

    ๋‹ค์Œ ๋งํฌ๋Š” ๋‹ค์–‘ํ•œ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•๋“ค์ด ๋‚˜์™€์žˆ๋Š” Seaborn๊ณผ Matplotlib ์˜ ๊ณต์‹๋ฌธ์„œ์ž…๋‹ˆ๋‹ค. ๋งํฌ ์†์˜ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜์—ฌ, ๊ณ ๋ฅธ ์ด์œ ์™€ ํ•ด๋‹น ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•์˜ ์žฅ์ ์„ ์†Œ๊ฐœํ•ด ์ฃผ์„ธ์š”. ์ €๋Š” seaborn์˜ violinplot์„ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค! ๋จผ์ € violinplot์€ boxplot๊ณผ ๋™์ผํ•˜๊ฒŒ ์ผ๋ณ€๋Ÿ‰, ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•œ ๊ทธ๋ž˜ํ”„์ž…๋‹ˆ๋‹ค. ๋‚ด์šฉ ์ž์ฒด๋Š” boxplot๊ณผ ๊ฐ™์œผ๋‚˜ ์ปค๋„ ๋ฐ€๋„ ๊ณก์„ ์„ ๋”ํ•ด, ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ’์— ๋”ฐ๋ฅธ ๊ฐ ๋ถ„ํฌ์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋˜๋Š” ์ „์ฒด ํ˜•์ƒ์„ ๋ณด์—ฌ์ค€๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ™•์ฆ์  ๋ฐ์ดํ„ฐ ๋ถ„์„(CDA: Confirmatory Data Analysis)๊ณผ ํƒ์ƒ‰์  ์ž๋ฃŒ ๋ถ„์„(EDA: Exploratory Data Analysis)์˜ ์ฐจ์ด์ ์„ ์„ค๋ช…ํ•˜๊ณ ,๊ฐ๊ฐ ์–ด๋–ค ๊ฒฝ์šฐ์— ..

    PCA(Principal Component Analysis)

    PCA(Principal Component Analysis)

    PCA(Principal Component Analysis); ์ฃผ์„ฑ๋ถ„ ๋ถ„์„ ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋กœ ํ™˜์›์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์„ ๋งํ•œ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๋ฐฉ๋ฒ• ๋ถ„ํฌ๋œ ๋ฐ์ดํ„ฐ๋“ค์˜ ์ฃผ์„ฑ๋ถ„์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์œ„ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๋ฐ์ดํ„ฐ๊ฐ€ 2์ฐจ์› ์ขŒํ‘œํ‰๋ฉด์— n๊ฐœ์˜ ์ ๋“ค๋กœ ๋ถ„ํฌ๋˜์–ด ์žˆ์„ ๋•Œ, ๋ฐ์ดํ„ฐ๋“ค์˜ ๋ถ„ํฌ ํŠน์„ฑ์„ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•ด์ฃผ๋Š” ๋ฒกํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ๋จผ์ € ๋ฐ์ดํ„ฐ๋“ค์˜ ๋ถ„์‚ฐ(ํฉ์–ด์ง„ ์ •๋„)์ด ๊ฐ€์žฅ ํฐ ๋ฐฉํ–ฅ๋ฒกํ„ฐ์ธ e1์„ ์„ค์ •ํ•˜๊ณ  e1๊ณผ ์ˆ˜์ง์ด๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ(e2)๋ฅผ ์ฐพ๋Š”๋‹ค. ์ฃผ์„ฑ๋ถ„ ๋ฒกํ„ฐ e1, e2์„ ์ด์šฉํ•ด์„œ ํƒ€์›ํ˜•์˜ ๋ฐ์ดํ„ฐ๋“ค์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์„ฑ์  ๋ฐ์ดํ„ฐ๊ฐ€ '๊ตญ์–ด', '์˜์–ด', '์ˆ˜ํ•™', '๊ณผํ•™'์ด ์žˆ์„ ๋•Œ, (๊ตญ์–ด, ์˜์–ด)๋ฅผ ๋ฌธ๊ณผ ๊ณ„ํ†ต, (์ˆ˜ํ•™, ..

    KNN(K-Nearest Neighbors)

    KNN(K-Nearest Neighbors)

    K-Nearest Neighbors : input feature์— ๋Œ€ํ•ด ์ตœ๊ทผ์ ‘ k๊ฐœ์˜ ๋ฐ์ดํ„ฐ์˜ f(x)๊ฐ’์„ ๋‹ค์ˆ˜๊ฒฐ ํ˜•์‹์œผ๋กœ ๋”ฐ๋ผ๊ฐ€๋Š” ๋ฐฉ์‹ Nonparametric approach(๋น„๋ชจ์ˆ˜ ์ ‘๊ทผ) - ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ง€ ์•Š๋Š”๋‹ค. - train data๊ฐ€ ๋งŽ์„์ˆ˜๋ก ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐฏ์ˆ˜๋„ ๋งŽ์•„์ง„๋‹ค. (๋ชจ์ˆ˜ ์ ‘๊ทผ๊ณผ ๋‹ค๋ฅด๊ฒŒ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐฏ์ˆ˜๊ฐ€ ํ•œ์ •๋˜์ง€ ์•Š๋Š”๋‹ค.) Classification : ์ž„์˜์˜ k์— ๋Œ€ํ•ด input feature ์ตœ๊ทผ์ ‘ k๊ฐœ์˜ ๋ฐ์ดํ„ฐ label์„ ๋”ฐ๋ผ ๋‹ค์ˆ˜๊ฒฐ๋กœ ๊ฒฐ์ • Regression : ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ตœ๊ทผ์ ‘ k๊ฐœ์˜ ๋ฐ์ดํ„ฐ ๊ฐ’์— ๋Œ€ํ•œ ํ‰๊ท  ํ˜น์€ linear regression Curse of Dimensionality(์ฐจ์›์˜ ์ €์ฃผ) : ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์ด ์ปค์งˆ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ..