๐ฟ Data
[TIL]4.Basic Derivative
๋ชฉํ ์ต์ ์์ ๋ฏธ๋ถ์ ๊ด๊ณ ๋ฏธ๋ถ, ํธ๋ฏธ๋ถ, Chain Rule์ ์ฐจ์ด๋ฅผ ์ดํด ๋ํจ์(๋ฏธ๋ถ)์ ํ์ด์ฌ์ผ๋ก ์ง์ ๊ตฌํ ๋ฐ scipy ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํ์ฉ ๋ฏธ๋ถ(Derivative) ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ฐ๋ฆฌ๊ฐ ๊ณ์ฐํ๊ณ ์ ํ๋ ๊ฒ์ Δx๊ฐ ํ์์ด 0์ ๊ฐ๊น์์ง ๋์ ๊ธฐ์ธ๊ธฐ ํน์ ํ ํ๋ผ๋ฏธํฐ ๊ฐ (input, x)์ ๋ํด์ ๋์ค๋ ๊ฒฐ๊ณผ๊ฐ(output, y)์ด ๋ณํํ๋ ์ ๋๋ฅผ (0์ ๊ฐ๊น์ด ๋ถ๋ถ์ ์ฐพ๊ธฐ ์ํด) ๊ณ์ฐํ๋ ๊ฒ. ๋ฏธ๋ถ๊ณผ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค๋ ๋ฌด์จ ์๊ด์ด ์๋? ์๋์ ๊ฐ์ ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ์์ ๋, ๊ทธ ๋ถํฌ๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํด์ฃผ๋ ํ๋์ ์ ์ ๊ทธ๋ฆฐ๋ค๊ณ ์๊ฐํด๋ณด์. y-hat=b+aX (a:๊ธฐ์ธ๊ธฐ, b:y์ ํธ, y-hat:์์ธก๊ฐ, x:๋ฐ์ดํฐ) cf) ๋ณดํต ์ค์ ๊ฐ์ ๊ทธ๋ฅ y๋ก ํํํ๋ค. ์ฃผ์ด์ง ๋ฐ์ดํฐ X๋ฅผ ๋ฃ์์ ๋, ๋ชจ๋ธ์ด ..
[TIL]3.Data Manipulation(๊ฐ์ธ์ ์ผ๋ก ์ ์์์ผ ๋๋ค๊ณ ๋๊ผ๋ ๋ถ๋ถ)
๋ชฉํ pandas๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ concat/mergeํ๊ธฐ tidy ๋ฐ์ดํฐ์ ๋ํ ๊ฐ๋ ์ดํด melt์ pivot/pivot_table ํจ์๋ฅผ ์ฌ์ฉํ์ฌ wide์ tidy ํํ์ ๋ฐ์ดํฐ๋ฅผ ์๋ก ๋ณํํ ์ ์๋ค. Pandas๋ก ๋ฐ์ดํฐ ํฉ์น๊ธฐ ์ฃผ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์๋ก ๋ค๋ฉด, ์ข ๋ชฉ๋ณ ๋ฐ์ดํฐ์ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ์ด๋ค ์ข ๋ชฉ์ ์๋ฏธํ๋์ง ์ค๋ช ํ๋ description ๋ฐ์ดํฐ๋ก ๋๋์ด ์ง ์ ์๋ค. ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ดํฐ ๋ถ์์ ํ๊ธฐ์ํด์๋ ์ฌ๋ฌ ๊ฐ์ ํ์ผ์ ํ๋๋ก ํฉ์ณ์ผํ๋ค!!! ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ ์ค 2๊ฐ์ง๋ฅผ ์๊ฐํด๋ณด๊ฒ ๋น Concat(concatenate) ๊ฐ๋จํ๊ฒ '๋ํ๋ค' ํน์ '๋ถ์ธ๋ค'๋ผ๋ ์๋ฏธ๋ก ์๊ฐํ๋ฉด ์ดํด๊ฐ ํธํ๋ค. ๋ฌธ์ํ ๋ถ์ด๋ ๋๋ '๋ฌธ์๋ฅผ' + '๋ถ์ฌ์' == '๋ฌธ์๋ฅผ๋ถ์ฌ์' ๋ฌ๊ธ์์ง๋ง ๋ฌธ์ํ์ ๋ค๋ฃจ๋ ๋ฐฉ๋ฒ์ ์ฌ..
[TIL]2.Feature Engineering
Feature Engineering ๋๋ฉ์ธ ์ง์๊ณผ ์ฐฝ์์ฑ์ ๋ฐํ์ผ๋ก, ๋ฐ์ดํฐ์ ์ ์กด์ฌํ๋ feature๋ค์ ์กฐ์ํ๋ ๊ฒ ์ ๊ทธ๋ฆผ์ฒ๋ผ 2๊ฐ์ feature๊ฐ ์์ ๋, 2๊ฐ๋ฅผ ์กฐํฉํ์ฌ ์๋ก์ด feature๋ฅผ ๋ง๋ค ์ ์๋ค. ํต๊ณ๋ถ์, ๋จธ์ ๋ฌ๋, ๋์๊ฐ ๋ฅ๋ฌ๋๊น์ง ๋๋ถ๋ถ์ ๋ถ์์ ๋ฐ์ดํฐ์ ์๋ ํจํด์ ์ธ์ํ๊ณ , ํด๋น ํจํด์ ๋ฐํ์ผ๋ก ์์ธก์ ํ๊ธฐ ๋๋ฌธ์ ๋ ์ข์ ํผํฌ๋จผ์ค๋ฅผ ์ํ์ฌ ์๋กญ๊ณ , ์๋ฏธ์๋ ํจํด์ ์ ๊ณตํ๋ ๊ฒ์ด feature engineering์ ๊ถ๊ทน์ ์ธ ๋ชฉ์ ์ด๋น. Dataframe pandas์ dataframe์ ๋ํ ๊ฐ๋จํ ์ค๋ช ์ผ๋ฐ์ ์ผ๋ก ํ๋์ ํ์๋ ํ๋์ ๋ฐ์ดํฐ(๊ด์ธก์น) ํ๋์ ์ด์๋ ํ๋์ feature๋ฅผ ์ ์ฅํ ๊ฒ์ ๊ถ์ฅ ์ด๋ฐ ํํ๋ฅผ tidyํํ๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ๋ค๋ฅธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค๊ณผ์ ํธํ์ฑ..
[TIL]8.Confidence Intervals
ANOVA(one-way) ์์์ ์์ํ ์นด์ด : 1๊ฐ ๊ทธ๋ฃน์ ํ๊ท ์ด ํน์ ์์ ๊ฐ์์ง ํฌ์ํ ์นด์ด : 2๊ฐ ๊ทธ๋ฃน์ ํ๊ท ์ด ์ ์๋ฏธํ๊ฒ ๋ค๋ฅธ์ง 2๊ฐ ์ด์ ๊ทธ๋ฃน์ ํ๊ท ์ ์ฐจ์ด๊ฐ ์๋์ง๋ฅผ ๊ฐ์ค ๊ฒ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํด์ ๋ฐฐ์๋ณด๊ฒ ์ต๋๋ค. Multiple Comparison 2๊ฐ ์ด์์ ์ฌ๋ฌ ๊ทธ๋ฃน์ ๋น๊ตํ๊ธฐ ์ํด์ ์ด๋ฐ ์๊ฐ์ ํ ์ ์๋ค. ์ด๋ก ์์ผ๋ก ๊ฐ๋ฅํ์ง๋ง ๋ฌธ์ ๊ฐ ์๋ค. 3๋ฒ์ ๊ฐ์ค ๊ฒ์ ์์ ๊ฐ๊ฐ ํต๊ณ์ ์ผ๋ก ์๋ฌ๊ฐ ๋ ํ๋ฅ ์ α์ด๋ค. ์ฆ, 3๊ฐ์ ๊ฐ์ค ๊ฒ์ ์ค ์ ์ด๋ ํ๋์์ ์๋ฌ๊ฐ ๋ ํ๋ฅ ์ 1−(1−α)^3 ์ด๊ณ α=0.05 ๊ธฐ์ค์ผ๋ก ์ฝ 15 % ์ ๋๋ค. ์ํ์ ์ผ๋ก m๊ฐ ๊ทธ๋ฃน์ ๋ํ ๊ฐ์ค ๊ฒ์ ์ด๋ผ๋ฉด ํ๊ท α = 1−(1−α)^m , ํ๊ท α ≤ m⋅α ๋ผ๋ ๊ฒ์ด ์ํ์ ์ผ๋ก ์ฆ๋ช ๋์ด ์์ต๋๋ค. ์ฆ, ์ฌ๋ฌ๊ฐ๋ฅผ ํ๋..
[TIL]7.Hypothesis Test +
T-test + t-test๋ ๊ทธ๋ฃน์ ํ๊ท ๊ฐ์ ๋ํด์ ๋น๊ตํ๋ ๊ฐ์ค๊ฒ์ ๋ฐฉ๋ฒ t-test๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ๋ช๊ฐ์ง ์กฐ๊ฑด์ด ๊ฐ์ ๋์ด์ผํ๋ค. ๋ ๋ฆฝ์ฑ : ๋ ๊ทธ๋ฃน์ด ์ฐ๊ฒฐ๋์ด์๋ ์์ธ์ง ๋ฑ๋ถ์ฐ์ฑ : ๋ ๊ทธ๋ฃน์ด ์ด๋์ ๋ ์ ์ฌํ ์์ค์ ๋ถ์ฐ ๊ฐ์ ๊ฐ์ง๋์ง ์ ๊ท์ฑ : ๋ฐ์ดํฐ๊ฐ ์ ๊ท์ฑ์ ๋ํ๋ด๋์ง (์์ ์กฐ๊ฑด๋ค์ ์ข๋ ์ฐพ์์ ๋ณด์ถฉํ ๊ฒ) ์ฆ, t-test๋ ํน์ ํ ์กฐ๊ฑด์์ ๊ทธ๋ฃน์ ํ๊ท ์ ๋น๊ตํ๊ธฐ ์ํ ๊ฐ์ค๊ฒ์ ๋ฐฉ๋ฒ ์ด๋ฌํ ๋ด์ฉ๋ค์ ํ์ธํ๊ธฐ ์ํ(๋ฐ์ดํฐ๊ฐ ์์ ์กฐ๊ฑด๋ค์ ๋ง์กฑํ๋์ง ํ์ธํ๊ธฐ ์ํ) ๊ฐ์ค๊ฒ์ ๋ฐฉ๋ฒ๋ค์ด scipy์ ๊ตฌํ๋์ด์๋ค. ๋ฐ์ดํฐ์ ์ ๊ท์ฑ ํ์ธ ์๋์ ๊ฐ์ด ๋ฐ์ดํฐ๊ฐ ์ ๊ท๋ถํฌ์ ๋ค๋ฅธ ์์์ ๋ณด์ธ๋ค๋ฉด? scipy.stats.normaltest from scipy import stats import nump..