๐Ÿ’ฟ Data

    [TIL]4.Basic Derivative

    ๋ชฉํ‘œ ์ตœ์ ์™€์™€ ๋ฏธ๋ถ„์˜ ๊ด€๊ณ„ ๋ฏธ๋ถ„, ํŽธ๋ฏธ๋ถ„, Chain Rule์˜ ์ฐจ์ด๋ฅผ ์ดํ•ด ๋„ํ•จ์ˆ˜(๋ฏธ๋ถ„)์„ ํŒŒ์ด์ฌ์œผ๋กœ ์ง์ ‘ ๊ตฌํ˜„ ๋ฐ scipy ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ™œ์šฉ ๋ฏธ๋ถ„(Derivative) ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์šฐ๋ฆฌ๊ฐ€ ๊ณ„์‚ฐํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์€ Δx๊ฐ€ ํ•œ์—†์ด 0์— ๊ฐ€๊นŒ์›Œ์งˆ ๋•Œ์˜ ๊ธฐ์šธ๊ธฐ ํŠน์ •ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’ (input, x)์— ๋Œ€ํ•ด์„œ ๋‚˜์˜ค๋Š” ๊ฒฐ๊ณผ๊ฐ’(output, y)์ด ๋ณ€ํ™”ํ•˜๋Š” ์ •๋„๋ฅผ (0์— ๊ฐ€๊นŒ์šด ๋ถ€๋ถ„์„ ์ฐพ๊ธฐ ์œ„ํ•ด) ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ. ๋ฏธ๋ถ„๊ณผ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค๋Š” ๋ฌด์Šจ ์ƒ๊ด€์ด ์žˆ๋‚˜? ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊ฐ€ ์žˆ์„ ๋•Œ, ๊ทธ ๋ถ„ํฌ๋ฅผ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•ด์ฃผ๋Š” ํ•˜๋‚˜์˜ ์„ ์„ ๊ทธ๋ฆฐ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. y-hat=b+aX (a:๊ธฐ์šธ๊ธฐ, b:y์ ˆํŽธ, y-hat:์˜ˆ์ธก๊ฐ’, x:๋ฐ์ดํ„ฐ) cf) ๋ณดํ†ต ์‹ค์ œ๊ฐ’์€ ๊ทธ๋ƒฅ y๋กœ ํ‘œํ˜„ํ•œ๋‹ค. ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ X๋ฅผ ๋„ฃ์—ˆ์„ ๋•Œ, ๋ชจ๋ธ์ด ..

    [TIL]3.Data Manipulation(๊ฐœ์ธ์ ์œผ๋กœ ์ž˜ ์•Œ์•„์•ผ ๋œ๋‹ค๊ณ  ๋А๊ผˆ๋˜ ๋ถ€๋ถ„)

    ๋ชฉํ‘œ pandas๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ concat/mergeํ•˜๊ธฐ tidy ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฐœ๋… ์ดํ•ด melt์™€ pivot/pivot_table ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ wide์™€ tidy ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„œ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค. Pandas๋กœ ๋ฐ์ดํ„ฐ ํ•ฉ์น˜๊ธฐ ์ฃผ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ๋กœ ๋“ค๋ฉด, ์ข…๋ชฉ๋ณ„ ๋ฐ์ดํ„ฐ์™€ ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ์ข…๋ชฉ์„ ์˜๋ฏธํ•˜๋Š”์ง€ ์„ค๋ช…ํ•˜๋Š” description ๋ฐ์ดํ„ฐ๋กœ ๋‚˜๋ˆ„์–ด ์งˆ ์ˆ˜ ์žˆ๋‹ค. ํšจ๊ณผ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ•˜๊ธฐ์œ„ํ•ด์„œ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํŒŒ์ผ์„ ํ•˜๋‚˜๋กœ ํ•ฉ์ณ์•ผํ•œ๋‹ค!!! ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฐฉ๋ฒ• ์ค‘ 2๊ฐ€์ง€๋ฅผ ์†Œ๊ฐœํ•ด๋ณด๊ฒ ๋‹น Concat(concatenate) ๊ฐ„๋‹จํ•˜๊ฒŒ '๋”ํ•œ๋‹ค' ํ˜น์€ '๋ถ™์ธ๋‹ค'๋ผ๋Š” ์˜๋ฏธ๋กœ ์ƒ๊ฐํ•˜๋ฉด ์ดํ•ด๊ฐ€ ํŽธํ•˜๋‹ค. ๋ฌธ์žํ˜• ๋ถ™์ด๋Š” ๋А๋‚Œ '๋ฌธ์ž๋ฅผ' + '๋ถ™์—ฌ์š”' == '๋ฌธ์ž๋ฅผ๋ถ™์—ฌ์š”' ๋œฌ๊ธˆ์—†์ง€๋งŒ ๋ฌธ์žํ˜•์„ ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•์€ ์—ฌ..

    [TIL]2.Feature Engineering

    Feature Engineering ๋„๋ฉ”์ธ ์ง€์‹๊ณผ ์ฐฝ์˜์„ฑ์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋ฐ์ดํ„ฐ์…‹์— ์กด์žฌํ•˜๋Š” feature๋“ค์„ ์กฐ์ž‘ํ•˜๋Š” ๊ฒƒ ์œ„ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ 2๊ฐœ์˜ feature๊ฐ€ ์žˆ์„ ๋•Œ, 2๊ฐœ๋ฅผ ์กฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด feature๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. ํ†ต๊ณ„๋ถ„์„, ๋จธ์‹ ๋Ÿฌ๋‹, ๋‚˜์•„๊ฐ€ ๋”ฅ๋Ÿฌ๋‹๊นŒ์ง€ ๋Œ€๋ถ€๋ถ„์˜ ๋ถ„์„์€ ๋ฐ์ดํ„ฐ์— ์žˆ๋Š” ํŒจํ„ด์„ ์ธ์‹ํ•˜๊ณ , ํ•ด๋‹น ํŒจํ„ด์„ ๋ฐ”ํƒ•์œผ๋กœ ์˜ˆ์ธก์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋” ์ข‹์€ ํผํฌ๋จผ์Šค๋ฅผ ์œ„ํ•˜์—ฌ ์ƒˆ๋กญ๊ณ , ์˜๋ฏธ์žˆ๋Š” ํŒจํ„ด์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด feature engineering์˜ ๊ถ๊ทน์ ์ธ ๋ชฉ์ ์ด๋‹น. Dataframe pandas์˜ dataframe์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์„ค๋ช… ์ผ๋ฐ˜์ ์œผ๋กœ ํ•˜๋‚˜์˜ ํ–‰์—๋Š” ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ(๊ด€์ธก์น˜) ํ•˜๋‚˜์˜ ์—ด์—๋Š” ํ•˜๋‚˜์˜ feature๋ฅผ ์ €์žฅํ•  ๊ฒƒ์„ ๊ถŒ์žฅ ์ด๋Ÿฐ ํ˜•ํƒœ๋ฅผ tidyํ˜•ํƒœ๋ผ๊ณ  ๋ถ€๋ฅด๋ฉฐ, ๋‹ค๋ฅธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋“ค๊ณผ์˜ ํ˜ธํ™˜์„ฑ..

    [TIL]8.Confidence Intervals

    ANOVA(one-way) ์•ž์—์„œ ์›์ƒ˜ํ”Œ ์นด์ด : 1๊ฐœ ๊ทธ๋ฃน์˜ ํ‰๊ท ์ด ํŠน์ • ์ˆ˜์™€ ๊ฐ™์€์ง€ ํˆฌ์ƒ˜ํ”Œ ์นด์ด : 2๊ฐœ ๊ทธ๋ฃน์˜ ํ‰๊ท ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋‹ค๋ฅธ์ง€ 2๊ฐœ ์ด์ƒ ๊ทธ๋ฃน์˜ ํ‰๊ท ์— ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ๊ฐ€์„ค ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ๋ฐฐ์›Œ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. Multiple Comparison 2๊ฐœ ์ด์ƒ์˜ ์—ฌ๋Ÿฌ ๊ทธ๋ฃน์„ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ด๋Ÿฐ ์ƒ๊ฐ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ก ์ƒ์œผ๋ก  ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. 3๋ฒˆ์˜ ๊ฐ€์„ค ๊ฒ€์ •์—์„œ ๊ฐ๊ฐ ํ†ต๊ณ„์ ์œผ๋กœ ์—๋Ÿฌ๊ฐ€ ๋‚  ํ™•๋ฅ ์€ α์ด๋‹ค. ์ฆ‰, 3๊ฐœ์˜ ๊ฐ€์„ค ๊ฒ€์ • ์ค‘ ์ ์–ด๋„ ํ•˜๋‚˜์—์„œ ์—๋Ÿฌ๊ฐ€ ๋‚  ํ™•๋ฅ ์€ 1−(1−α)^3 ์ด๊ณ  α=0.05 ๊ธฐ์ค€์œผ๋กœ ์•ฝ 15 % ์ž…๋‹ˆ๋‹ค. ์ˆ˜ํ•™์ ์œผ๋กœ m๊ฐœ ๊ทธ๋ฃน์— ๋Œ€ํ•œ ๊ฐ€์„ค ๊ฒ€์ •์ด๋ผ๋ฉด ํ‰๊ท α = 1−(1−α)^m , ํ‰๊ท α ≤ m⋅α ๋ผ๋Š” ๊ฒƒ์ด ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์—ฌ๋Ÿฌ๊ฐœ๋ฅผ ํ•˜๋‚˜..

    [TIL]7.Hypothesis Test +

    T-test + t-test๋Š” ๊ทธ๋ฃน์˜ ํ‰๊ท ๊ฐ’์— ๋Œ€ํ•ด์„œ ๋น„๊ตํ•˜๋Š” ๊ฐ€์„ค๊ฒ€์ • ๋ฐฉ๋ฒ• t-test๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ช‡๊ฐ€์ง€ ์กฐ๊ฑด์ด ๊ฐ€์ •๋˜์–ด์•ผํ•œ๋‹ค. ๋…๋ฆฝ์„ฑ : ๋‘ ๊ทธ๋ฃน์ด ์—ฐ๊ฒฐ๋˜์–ด์žˆ๋Š” ์Œ์ธ์ง€ ๋“ฑ๋ถ„์‚ฐ์„ฑ : ๋‘ ๊ทธ๋ฃน์ด ์–ด๋А์ •๋„ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ๋ถ„์‚ฐ ๊ฐ’์„ ๊ฐ€์ง€๋Š”์ง€ ์ •๊ทœ์„ฑ : ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š”์ง€ (์œ„์˜ ์กฐ๊ฑด๋“ค์€ ์ข€๋” ์ฐพ์•„์„œ ๋ณด์ถฉํ•  ๊ฒƒ) ์ฆ‰, t-test๋Š” ํŠน์ •ํ•œ ์กฐ๊ฑด์—์„œ ๊ทธ๋ฃน์˜ ํ‰๊ท ์„ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ€์„ค๊ฒ€์ • ๋ฐฉ๋ฒ• ์ด๋Ÿฌํ•œ ๋‚ด์šฉ๋“ค์„ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ(๋ฐ์ดํ„ฐ๊ฐ€ ์œ„์˜ ์กฐ๊ฑด๋“ค์„ ๋งŒ์กฑํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ) ๊ฐ€์„ค๊ฒ€์ • ๋ฐฉ๋ฒ•๋“ค์ด scipy์— ๊ตฌํ˜„๋˜์–ด์žˆ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ์ •๊ทœ์„ฑ ํ™•์ธ ์•„๋ž˜์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ์™€ ๋‹ค๋ฅธ ์–‘์ƒ์„ ๋ณด์ธ๋‹ค๋ฉด? scipy.stats.normaltest from scipy import stats import nump..