Jayden`s

    [TIL]2.Feature Engineering

    Feature Engineering ๋„๋ฉ”์ธ ์ง€์‹๊ณผ ์ฐฝ์˜์„ฑ์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋ฐ์ดํ„ฐ์…‹์— ์กด์žฌํ•˜๋Š” feature๋“ค์„ ์กฐ์ž‘ํ•˜๋Š” ๊ฒƒ ์œ„ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ 2๊ฐœ์˜ feature๊ฐ€ ์žˆ์„ ๋•Œ, 2๊ฐœ๋ฅผ ์กฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด feature๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. ํ†ต๊ณ„๋ถ„์„, ๋จธ์‹ ๋Ÿฌ๋‹, ๋‚˜์•„๊ฐ€ ๋”ฅ๋Ÿฌ๋‹๊นŒ์ง€ ๋Œ€๋ถ€๋ถ„์˜ ๋ถ„์„์€ ๋ฐ์ดํ„ฐ์— ์žˆ๋Š” ํŒจํ„ด์„ ์ธ์‹ํ•˜๊ณ , ํ•ด๋‹น ํŒจํ„ด์„ ๋ฐ”ํƒ•์œผ๋กœ ์˜ˆ์ธก์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋” ์ข‹์€ ํผํฌ๋จผ์Šค๋ฅผ ์œ„ํ•˜์—ฌ ์ƒˆ๋กญ๊ณ , ์˜๋ฏธ์žˆ๋Š” ํŒจํ„ด์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด feature engineering์˜ ๊ถ๊ทน์ ์ธ ๋ชฉ์ ์ด๋‹น. Dataframe pandas์˜ dataframe์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์„ค๋ช… ์ผ๋ฐ˜์ ์œผ๋กœ ํ•˜๋‚˜์˜ ํ–‰์—๋Š” ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ(๊ด€์ธก์น˜) ํ•˜๋‚˜์˜ ์—ด์—๋Š” ํ•˜๋‚˜์˜ feature๋ฅผ ์ €์žฅํ•  ๊ฒƒ์„ ๊ถŒ์žฅ ์ด๋Ÿฐ ํ˜•ํƒœ๋ฅผ tidyํ˜•ํƒœ๋ผ๊ณ  ๋ถ€๋ฅด๋ฉฐ, ๋‹ค๋ฅธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋“ค๊ณผ์˜ ํ˜ธํ™˜์„ฑ..

    [TIL]8.Confidence Intervals

    ANOVA(one-way) ์•ž์—์„œ ์›์ƒ˜ํ”Œ ์นด์ด : 1๊ฐœ ๊ทธ๋ฃน์˜ ํ‰๊ท ์ด ํŠน์ • ์ˆ˜์™€ ๊ฐ™์€์ง€ ํˆฌ์ƒ˜ํ”Œ ์นด์ด : 2๊ฐœ ๊ทธ๋ฃน์˜ ํ‰๊ท ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋‹ค๋ฅธ์ง€ 2๊ฐœ ์ด์ƒ ๊ทธ๋ฃน์˜ ํ‰๊ท ์— ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ๊ฐ€์„ค ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ๋ฐฐ์›Œ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. Multiple Comparison 2๊ฐœ ์ด์ƒ์˜ ์—ฌ๋Ÿฌ ๊ทธ๋ฃน์„ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ด๋Ÿฐ ์ƒ๊ฐ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ก ์ƒ์œผ๋ก  ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. 3๋ฒˆ์˜ ๊ฐ€์„ค ๊ฒ€์ •์—์„œ ๊ฐ๊ฐ ํ†ต๊ณ„์ ์œผ๋กœ ์—๋Ÿฌ๊ฐ€ ๋‚  ํ™•๋ฅ ์€ α์ด๋‹ค. ์ฆ‰, 3๊ฐœ์˜ ๊ฐ€์„ค ๊ฒ€์ • ์ค‘ ์ ์–ด๋„ ํ•˜๋‚˜์—์„œ ์—๋Ÿฌ๊ฐ€ ๋‚  ํ™•๋ฅ ์€ 1−(1−α)^3 ์ด๊ณ  α=0.05 ๊ธฐ์ค€์œผ๋กœ ์•ฝ 15 % ์ž…๋‹ˆ๋‹ค. ์ˆ˜ํ•™์ ์œผ๋กœ m๊ฐœ ๊ทธ๋ฃน์— ๋Œ€ํ•œ ๊ฐ€์„ค ๊ฒ€์ •์ด๋ผ๋ฉด ํ‰๊ท α = 1−(1−α)^m , ํ‰๊ท α ≤ m⋅α ๋ผ๋Š” ๊ฒƒ์ด ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์—ฌ๋Ÿฌ๊ฐœ๋ฅผ ํ•˜๋‚˜..

    [TIL]7.Hypothesis Test +

    T-test + t-test๋Š” ๊ทธ๋ฃน์˜ ํ‰๊ท ๊ฐ’์— ๋Œ€ํ•ด์„œ ๋น„๊ตํ•˜๋Š” ๊ฐ€์„ค๊ฒ€์ • ๋ฐฉ๋ฒ• t-test๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ช‡๊ฐ€์ง€ ์กฐ๊ฑด์ด ๊ฐ€์ •๋˜์–ด์•ผํ•œ๋‹ค. ๋…๋ฆฝ์„ฑ : ๋‘ ๊ทธ๋ฃน์ด ์—ฐ๊ฒฐ๋˜์–ด์žˆ๋Š” ์Œ์ธ์ง€ ๋“ฑ๋ถ„์‚ฐ์„ฑ : ๋‘ ๊ทธ๋ฃน์ด ์–ด๋Š์ •๋„ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ๋ถ„์‚ฐ ๊ฐ’์„ ๊ฐ€์ง€๋Š”์ง€ ์ •๊ทœ์„ฑ : ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š”์ง€ (์œ„์˜ ์กฐ๊ฑด๋“ค์€ ์ข€๋” ์ฐพ์•„์„œ ๋ณด์ถฉํ•  ๊ฒƒ) ์ฆ‰, t-test๋Š” ํŠน์ •ํ•œ ์กฐ๊ฑด์—์„œ ๊ทธ๋ฃน์˜ ํ‰๊ท ์„ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ€์„ค๊ฒ€์ • ๋ฐฉ๋ฒ• ์ด๋Ÿฌํ•œ ๋‚ด์šฉ๋“ค์„ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ(๋ฐ์ดํ„ฐ๊ฐ€ ์œ„์˜ ์กฐ๊ฑด๋“ค์„ ๋งŒ์กฑํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ) ๊ฐ€์„ค๊ฒ€์ • ๋ฐฉ๋ฒ•๋“ค์ด scipy์— ๊ตฌํ˜„๋˜์–ด์žˆ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ์ •๊ทœ์„ฑ ํ™•์ธ ์•„๋ž˜์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ์™€ ๋‹ค๋ฅธ ์–‘์ƒ์„ ๋ณด์ธ๋‹ค๋ฉด? scipy.stats.normaltest from scipy import stats import nump..

    [TIL]1.Exploratory Data Analysis(EDA)

    ๋ฐ์ดํ„ฐ์…‹ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ import pandas as pd pd.read_csv('') ๋ฐ์ดํ„ฐ์…‹ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ™•์ธ ์ฒซ๋ฒˆ์งธ๋ถ€ํ„ฐ ๋‹ค์„ฏ๋ฒˆ์งธ row ํ™•์ธ(์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€๋žต ์ฒดํฌํ•  ๋•Œ ์•„์ฃผ ์ž์ฃผ ์‚ฌ์šฉ๋จ) ๊ฑ ์‹œ๋„๋•Œ๋„ ์—†์ด ์‚ฌ์šฉ๋จ df.head() ๋ฐ์ดํ„ฐ์…‹ ๋ชจ์–‘ ํ™•์ธ(df์˜ ํ–‰๊ณผ ์—ด ๊ฐฏ์ˆ˜, ๊ตฌ์กฐ๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ํŠœํ”Œ ๋ณด์—ฌ์คŒ) df.shape EDA(Exploratory Data Analysis) ์•„์ฃผ ์ค‘์š”ํ•œ ๊ฐœ๋…์“ฐ ์šฐ๋ฆฌ๊ฐ€ ์ง€์ธ์œผ๋กœ๋ถ€ํ„ฐ ์ƒ์„  ์„ ๋ฌผ์„ ๋ฐ›์•˜๋‹ค. ์ด์ œ ์ด๊ฑธ ์–ด๋–ป๊ฒŒ ํ• ๊นŒ. ์ช„๋จน์„๊นŒ ํƒ•ํ•ด๋จน์„๊นŒ ์•„๋‹ˆ๋ฉด ํ’€์–ด์ค„๊นŒ ๋ญ ์–ด๋–ป๊ฒŒ ํ• ๊นŒ ์ƒ์„ ์— ๋…์€ ์—†์„๊นŒ ๋จน์„ ์ˆ˜ ์—†๋Š” ๋ถ€๋ถ„์€ ์žˆ๋‚˜ ์ƒ์„ ์ด ๋งž๊ธด ํ•ด? ์š”๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ๊ฐ€์ • ex)์‹ ์„ ํ•˜๋ฉด ํšŒ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค! ์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ๋„ ์ด๋ฆฌ์ €๋ฆฌ ๊ฒฐ์ธก์น˜๋Š” ์žˆ๋Š”์ง€, ๋ญ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋Š” ์–ด๋–ค์ง€, ์นผ๋Ÿผ๋ณ„๋กœ..

    [TIL]6.Hypothesis Test

    Hypothesis Test ๊ธฐ์ˆ  ํ†ต๊ณ„์น˜(descriptive Statistics)๋ž€ count, mean, standard dev, min, 1Q, median, 3Q, max ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ํ†ต๊ณ„์น˜๊ธฐ์ˆ  ํ†ต๊ณ„์น˜์˜ ์‹œ๊ฐํ™” Boxplot Bagplot(๊ฐ€๋ฐฉ์ฒ˜๋Ÿผ ์ƒ๊น€, ๋‚œํ•ดํ•ด์„œ ์ž˜ ์“ฐ์ด์ง„ ์•Š๋Š”๋‹ค.) Violinplot(๋ฐ•์Šคํ”Œ๋กฏ์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊นŒ์ง€ ๋ณด์—ฌ์ค€๋‹ค. ๊ฐœ์ธ์ ์œผ๋กœ ๊ฐ€์žฅ ๋ง˜์— ๋“œ๋Š” ํ”Œ๋ž) ๊ธฐ์ˆ  ํ†ต๊ณ„์น˜ ๋ณด๋Š” ์ฝ”๋“œ์ด์™ธ์—๋„ Mode, Range, Var / SD, Kurtosis(์ฒจ๋„), Skewness(์™œ๋„) ๋“ฑ์ด ์žˆ๋‹ค๋ฆฌ~ df.describe() ์ถ”๋ฆฌ ํ†ต๊ณ„์น˜(Inferential Statistics)๋ž€ Population, Parameter ,Statistics, Estimator, Standard ..