Jayden`s
[TIL]2.Feature Engineering
Feature Engineering ๋๋ฉ์ธ ์ง์๊ณผ ์ฐฝ์์ฑ์ ๋ฐํ์ผ๋ก, ๋ฐ์ดํฐ์ ์ ์กด์ฌํ๋ feature๋ค์ ์กฐ์ํ๋ ๊ฒ ์ ๊ทธ๋ฆผ์ฒ๋ผ 2๊ฐ์ feature๊ฐ ์์ ๋, 2๊ฐ๋ฅผ ์กฐํฉํ์ฌ ์๋ก์ด feature๋ฅผ ๋ง๋ค ์ ์๋ค. ํต๊ณ๋ถ์, ๋จธ์ ๋ฌ๋, ๋์๊ฐ ๋ฅ๋ฌ๋๊น์ง ๋๋ถ๋ถ์ ๋ถ์์ ๋ฐ์ดํฐ์ ์๋ ํจํด์ ์ธ์ํ๊ณ , ํด๋น ํจํด์ ๋ฐํ์ผ๋ก ์์ธก์ ํ๊ธฐ ๋๋ฌธ์ ๋ ์ข์ ํผํฌ๋จผ์ค๋ฅผ ์ํ์ฌ ์๋กญ๊ณ , ์๋ฏธ์๋ ํจํด์ ์ ๊ณตํ๋ ๊ฒ์ด feature engineering์ ๊ถ๊ทน์ ์ธ ๋ชฉ์ ์ด๋น. Dataframe pandas์ dataframe์ ๋ํ ๊ฐ๋จํ ์ค๋ช ์ผ๋ฐ์ ์ผ๋ก ํ๋์ ํ์๋ ํ๋์ ๋ฐ์ดํฐ(๊ด์ธก์น) ํ๋์ ์ด์๋ ํ๋์ feature๋ฅผ ์ ์ฅํ ๊ฒ์ ๊ถ์ฅ ์ด๋ฐ ํํ๋ฅผ tidyํํ๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ๋ค๋ฅธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค๊ณผ์ ํธํ์ฑ..
[TIL]8.Confidence Intervals
ANOVA(one-way) ์์์ ์์ํ ์นด์ด : 1๊ฐ ๊ทธ๋ฃน์ ํ๊ท ์ด ํน์ ์์ ๊ฐ์์ง ํฌ์ํ ์นด์ด : 2๊ฐ ๊ทธ๋ฃน์ ํ๊ท ์ด ์ ์๋ฏธํ๊ฒ ๋ค๋ฅธ์ง 2๊ฐ ์ด์ ๊ทธ๋ฃน์ ํ๊ท ์ ์ฐจ์ด๊ฐ ์๋์ง๋ฅผ ๊ฐ์ค ๊ฒ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํด์ ๋ฐฐ์๋ณด๊ฒ ์ต๋๋ค. Multiple Comparison 2๊ฐ ์ด์์ ์ฌ๋ฌ ๊ทธ๋ฃน์ ๋น๊ตํ๊ธฐ ์ํด์ ์ด๋ฐ ์๊ฐ์ ํ ์ ์๋ค. ์ด๋ก ์์ผ๋ก ๊ฐ๋ฅํ์ง๋ง ๋ฌธ์ ๊ฐ ์๋ค. 3๋ฒ์ ๊ฐ์ค ๊ฒ์ ์์ ๊ฐ๊ฐ ํต๊ณ์ ์ผ๋ก ์๋ฌ๊ฐ ๋ ํ๋ฅ ์ α์ด๋ค. ์ฆ, 3๊ฐ์ ๊ฐ์ค ๊ฒ์ ์ค ์ ์ด๋ ํ๋์์ ์๋ฌ๊ฐ ๋ ํ๋ฅ ์ 1−(1−α)^3 ์ด๊ณ α=0.05 ๊ธฐ์ค์ผ๋ก ์ฝ 15 % ์ ๋๋ค. ์ํ์ ์ผ๋ก m๊ฐ ๊ทธ๋ฃน์ ๋ํ ๊ฐ์ค ๊ฒ์ ์ด๋ผ๋ฉด ํ๊ท α = 1−(1−α)^m , ํ๊ท α ≤ m⋅α ๋ผ๋ ๊ฒ์ด ์ํ์ ์ผ๋ก ์ฆ๋ช ๋์ด ์์ต๋๋ค. ์ฆ, ์ฌ๋ฌ๊ฐ๋ฅผ ํ๋..
[TIL]7.Hypothesis Test +
T-test + t-test๋ ๊ทธ๋ฃน์ ํ๊ท ๊ฐ์ ๋ํด์ ๋น๊ตํ๋ ๊ฐ์ค๊ฒ์ ๋ฐฉ๋ฒ t-test๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ๋ช๊ฐ์ง ์กฐ๊ฑด์ด ๊ฐ์ ๋์ด์ผํ๋ค. ๋ ๋ฆฝ์ฑ : ๋ ๊ทธ๋ฃน์ด ์ฐ๊ฒฐ๋์ด์๋ ์์ธ์ง ๋ฑ๋ถ์ฐ์ฑ : ๋ ๊ทธ๋ฃน์ด ์ด๋์ ๋ ์ ์ฌํ ์์ค์ ๋ถ์ฐ ๊ฐ์ ๊ฐ์ง๋์ง ์ ๊ท์ฑ : ๋ฐ์ดํฐ๊ฐ ์ ๊ท์ฑ์ ๋ํ๋ด๋์ง (์์ ์กฐ๊ฑด๋ค์ ์ข๋ ์ฐพ์์ ๋ณด์ถฉํ ๊ฒ) ์ฆ, t-test๋ ํน์ ํ ์กฐ๊ฑด์์ ๊ทธ๋ฃน์ ํ๊ท ์ ๋น๊ตํ๊ธฐ ์ํ ๊ฐ์ค๊ฒ์ ๋ฐฉ๋ฒ ์ด๋ฌํ ๋ด์ฉ๋ค์ ํ์ธํ๊ธฐ ์ํ(๋ฐ์ดํฐ๊ฐ ์์ ์กฐ๊ฑด๋ค์ ๋ง์กฑํ๋์ง ํ์ธํ๊ธฐ ์ํ) ๊ฐ์ค๊ฒ์ ๋ฐฉ๋ฒ๋ค์ด scipy์ ๊ตฌํ๋์ด์๋ค. ๋ฐ์ดํฐ์ ์ ๊ท์ฑ ํ์ธ ์๋์ ๊ฐ์ด ๋ฐ์ดํฐ๊ฐ ์ ๊ท๋ถํฌ์ ๋ค๋ฅธ ์์์ ๋ณด์ธ๋ค๋ฉด? scipy.stats.normaltest from scipy import stats import nump..
[TIL]1.Exploratory Data Analysis(EDA)
๋ฐ์ดํฐ์ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd pd.read_csv('') ๋ฐ์ดํฐ์ ๊ฐ๋จํ๊ฒ ํ์ธ ์ฒซ๋ฒ์งธ๋ถํฐ ๋ค์ฏ๋ฒ์งธ row ํ์ธ(์ค์ ๋ฐ์ดํฐ๋ฅผ ๋๋ต ์ฒดํฌํ ๋ ์์ฃผ ์์ฃผ ์ฌ์ฉ๋จ) ๊ฑ ์๋๋๋ ์์ด ์ฌ์ฉ๋จ df.head() ๋ฐ์ดํฐ์ ๋ชจ์ ํ์ธ(df์ ํ๊ณผ ์ด ๊ฐฏ์, ๊ตฌ์กฐ๋ฅผ ๊ฐ๋จํ๊ฒ ํํ ๋ณด์ฌ์ค) df.shape EDA(Exploratory Data Analysis) ์์ฃผ ์ค์ํ ๊ฐ๋ ์ฐ ์ฐ๋ฆฌ๊ฐ ์ง์ธ์ผ๋ก๋ถํฐ ์์ ์ ๋ฌผ์ ๋ฐ์๋ค. ์ด์ ์ด๊ฑธ ์ด๋ป๊ฒ ํ ๊น. ์ช๋จน์๊น ํํด๋จน์๊น ์๋๋ฉด ํ์ด์ค๊น ๋ญ ์ด๋ป๊ฒ ํ ๊น ์์ ์ ๋ ์ ์์๊น ๋จน์ ์ ์๋ ๋ถ๋ถ์ ์๋ ์์ ์ด ๋ง๊ธด ํด? ์๋ฆฌํ๊ธฐ ์ํ ์ฌ๋ฌ ๊ฐ์ ex)์ ์ ํ๋ฉด ํ๋ ๊ฐ๋ฅํ๋ค! ์ ๊ฐ์ด ๋ฐ์ดํฐ๋ ์ด๋ฆฌ์ ๋ฆฌ ๊ฒฐ์ธก์น๋ ์๋์ง, ๋ญ ๋ฐ์ดํฐ ํฌ๊ธฐ๋ ์ด๋ค์ง, ์นผ๋ผ๋ณ๋ก..
[TIL]6.Hypothesis Test
Hypothesis Test ๊ธฐ์ ํต๊ณ์น(descriptive Statistics)๋ count, mean, standard dev, min, 1Q, median, 3Q, max ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ๋ ํต๊ณ์น๊ธฐ์ ํต๊ณ์น์ ์๊ฐํ Boxplot Bagplot(๊ฐ๋ฐฉ์ฒ๋ผ ์๊น, ๋ํดํด์ ์ ์ฐ์ด์ง ์๋๋ค.) Violinplot(๋ฐ์คํ๋กฏ์์ ๋ฐ์ดํฐ ๋ถํฌ๊น์ง ๋ณด์ฌ์ค๋ค. ๊ฐ์ธ์ ์ผ๋ก ๊ฐ์ฅ ๋ง์ ๋๋ ํ๋) ๊ธฐ์ ํต๊ณ์น ๋ณด๋ ์ฝ๋์ด์ธ์๋ Mode, Range, Var / SD, Kurtosis(์ฒจ๋), Skewness(์๋) ๋ฑ์ด ์๋ค๋ฆฌ~ df.describe() ์ถ๋ฆฌ ํต๊ณ์น(Inferential Statistics)๋ Population, Parameter ,Statistics, Estimator, Standard ..