Hypothesis Test
๊ธฐ์ ํต๊ณ์น(descriptive Statistics)๋
- count, mean, standard dev, min, 1Q, median, 3Q, max ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ๋ ํต๊ณ์น๊ธฐ์ ํต๊ณ์น์ ์๊ฐํ
- Boxplot
- Bagplot(๊ฐ๋ฐฉ์ฒ๋ผ ์๊น, ๋ํดํด์ ์ ์ฐ์ด์ง ์๋๋ค.)
- Violinplot(๋ฐ์คํ๋กฏ์์ ๋ฐ์ดํฐ ๋ถํฌ๊น์ง ๋ณด์ฌ์ค๋ค. ๊ฐ์ธ์ ์ผ๋ก ๊ฐ์ฅ ๋ง์ ๋๋ ํ๋)
๊ธฐ์ ํต๊ณ์น ๋ณด๋ ์ฝ๋์ด์ธ์๋ Mode, Range, Var / SD, Kurtosis(์ฒจ๋), Skewness(์๋) ๋ฑ์ด ์๋ค๋ฆฌ~ df.describe()
์ถ๋ฆฌ ํต๊ณ์น(Inferential Statistics)๋
- Population, Parameter ,Statistics, Estimator, Standard Deviation, Standard Error ๋ฑ ํ๋ณธ์ ํตํ ๋ชจ์ง๋จ ์ถ๋ฆฌ ํต๊ณ์น
Effective Sampling(๋ฐ์ดํฐ์ ํํ์ ๋ฐ๋ผ์ ํจ๊ณผ์ ์ธ ์ํ๋ง ๋ฐฉ๋ฒ๋ค์ด ์กด์ฌ)
- Simple Random Sampling
- Systematic Sampling
๋ชจ์ง๋จ์์ sampling์ ํ ๋ ํน์ ๊ท์น์ ๊ฐ์ง๊ณ ์ถ์ถํ๋ ๋ฐฉ๋ฒ.
ex) 1, 6, 11, 16 ๋ฒ์งธ์ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๋ค. - Stratified Random Sampling
๋ชจ์ง๋จ์ ๋ฏธ๋ฆฌ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋๊ณ , ๊ทธ๋ฃน๋ณ๋ก ๋ฌด์์ ์ถ์ถ์ ์ํํฉ๋๋ค.
ex) ์ฌ๋ก ์กฐ์ฌ๋ฅผ ์ํด ์ฌ๋์ ๋์ด๋ ๋ณ๋ก ๋๋๊ณ , ํด๋น ๊ทธ๋ฃน๋ด์์ ๋ฌด์์ ์ถ์ถ - Cluster Sampling
๋ชจ์ง๋จ์ ๋ฏธ๋ฆฌ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋ ํ, ํน์ ๊ทธ๋ฃน์์ ๋ฌด์์๋ก ์ ํํ๋ ๋ฐฉ๋ฒ
๊ฐ์ค ๊ฒ์
- ์ฃผ์ด์ง ์ํฉ์ ๋ํด์ ํ๊ณ ์ ํ๋ ์ฃผ์ฅ์ด ๋ง๋์ง ์๋์ง๋ฅผ ํ์ ํ๋ ๊ณผ์
- ๋ชจ์ง๋จ์ ์ค์ ๊ฐ์ ๋ํ sample์ ํต๊ณ์น๋ฅผ ์ฌ์ฉํด์ ํต๊ณ์ ์ผ๋ก ์ ์ํ์ง ์๋์ง ์ฌ๋ถ๋ฅผ ํ์
์ฌ๊ธฐ์ ์ ๊น ๋์ ์์ฑ์์ ํ
np.random.seed(int)
np.random์ ํตํ ๋์๋ฅผ ์์ฑํ๋ ๊ฒ์ ์ ๋ง ๋๋คํ ๊ฑฐ์ฒ๋ผ ๋ณด์ด์ง๋ง ์ค์ ๋ก๋ ๋์๋ฅผ ์์ฑํ๋ ๋ฉ์ปค๋์ฆ์ ํตํด ๋์จ๋ค.
์ฆ, seed() ์์ ๋ค์ด๊ฐ๋ ์ซ์๊ฐ ๊ฐ์ผ๋ฉด ๋ฐ์ํ๋ ๋์ ์ง๋จ์ด ๋์ผํ๊ฒ ๋๋ค! ๊ทธ๋ฐ ์๋ฏธ์์ ๋์ ๋ฐ์์ seed๋ฅผ ์ค์ ํด์ฃผ๋ ๊ฒ!
ํ์ค ํ๊ท ์ ํ์ค ์ค์ฐจ(Standard Error of the Sample Mean)
ex) ์ด๋ก์์ด 1000๋ฒ, ํ๋์์ด 100๋ฒ, ๋
ธ๋์์ด 10๋ฒ ์ถ์ถํ ๊ฒ๊ณผ ๊ฐ์. ๊ฒ์ ๊ฐ์ฅ ํฐ ์์ด ๋ชจ์์ง๋จ์ด๋ผ ์๊ฐํ๋ฉด ๋๋ค.
SE : ํ์ค ํ๊ท ์ ํ์ค ์ค์ฐจ
s : ํ๋ณธ์ ํ์คํธ์ฐจ(sample standard deviation)
n : ํ๋ณธ์ ์(sample size)
n๊ฐ(ํ๋ณธ์ ์)์ด ์ปค์ง์๋ก ์๋ฌ๋ ์์์ง๋ค. ์ฆ, ํ๋ณธ์ ์๊ฐ ๋ง์์ง์๋ก, ์ถ์ธก์ ๋ ์ ํํด์ง๊ณ ๋์ ์ ๋ขฐ๋๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ์ง๋จ์ ๋ํด ์์ธกํ ์ ์๋๋ก ํ๋ค.
Student T-test(Student๋ผ๋ ์ฌ๋์ด ๋ง๋ T-test)
One Sample t-test
- 1๊ฐ์ sample ๊ฐ๋ค์ ํ๊ท ์ด ํน์ ๊ฐ๊ณผ ๋์ผํ์ง ๋น๊ต ex) ๋์ ์ด ๊ณต์ ํ์ง ํ์ธํ๋ ค๊ณ ํ ๋, p(x=H)=0.5
๋ชจ์ง๋จ์ ๋ํ ์ ๋ณด์ ํ๋ณธ์ ๋ฐ์ดํฐ๋ฅผ ๋น๊ต
- ์ ํต๊ณ์น๋ ํ๊ท ์ ๋นผ๊ณ ํ์คํธ์ฐจ๋ก ๋๋ ์คฌ๋๋ฐ ์ด๋ฐ ๊ณผ์ ์ ์ ๊ทํ๋ผ๊ณ ํ๋ค.
- ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ ํ๊ท ์ 0, ํ์คํธ์ฐจ๊ฐ 1์ธ ๋ฐ์ดํฐ๋ก scaling ๋๋ค.
T-test Process
- ๊ท๋ฌด๊ฐ์ค(Null Hypothesis)๋ฅผ ์ค์ ex) fair coin, p=0.5
H0 : μ=x¯
μ : ๋ชจ์ง๋จ์ ํ๊ท
x¯ : ํ๋ณธ์ ํ๊ท- ๋์ ๊ฐ์ค(Alternative Hypothesis)๋ฅผ ์ค์ ex) not fair coin, p != 0.5
H1:μ≠x¯ - ์ ๋ขฐ๋๋ฅผ ์ค์ (Confidence Level) : ๋ชจ์๊ฐ ์ ๋ขฐ๊ตฌ๊ฐ ์์ ํฌํจ๋ ํ๋ฅ (๋ณดํต 95%, 99% ๋ฅผ ์ฌ์ฉ)
์ ๋ขฐ๋ 95%์ ์๋ฏธ
- ๋ชจ์๊ฐ ์ ๋ขฐ ๊ตฌ๊ฐ ์์ ํฌํจ๋ ํ๋ฅ ์ด 95%
- ๊ท๋ฌด๊ฐ์ค์ด ํ๋ ธ์ง๋ง ์ฐ์ฐํ ์ฑ๋ฆฝํ ํ๋ฅ ์ด 5%
- p-values๋ฅผ ํ์ธ
- p-value๋ ์ฃผ์ด์ง ๊ฐ์ค์ ๋ํด์ "์ผ๋ง๋ ๊ทผ๊ฑฐ๊ฐ ์๋์ง"์ ๋ํ ๊ฐ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก scaleํ ์งํ
- p-value๊ฐ ๋ฎ๋ค๋ ๊ฒ์ '๊ท๋ฌด๊ฐ์ค์ด ํ๋ ธ์ ํ๋ฅ ์ด ๋๋ค.'๋ฅผ ์๋ฏธํ๋ค.
- p-value๋ ์ ๋ขฐ๋์ ๋ฐ๋ฅธ ์ํ๊ฐ๊ณผ ๋น๊ตํด์ ๊ฐ์ค์ ๋ํ ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๊ฒ ๋๋ค.T-test with scipy
from scipy import stats scipy.stats.ttest
- pvalue < 0.05๋ฉด ๊ท๋ฌด๊ฐ์ค ๊ธฐ๊ฐ
- pvalue > 0.05๋ฉด ๊ท๋ฌด๊ฐ์ค์ ํ๋ฆฌ์ง ์์๋ค.('๊ท๋ฌด๊ฐ์ค์ด ์ณ๋ค'์ ํค์ด ์ฝ๊ฐ ๋ค๋ฆ)
- One side test : ์ํ ๋ฐ์ดํฐ์ ํ๊ท ์ด 'X'๋ณด๋ค ํฌ๋ค ํน์ ์๋ค / ํฌ์ง์๋ค ํน์ ์์ง์๋ค ๋ฅผ ๊ฒ์ ํ๋ ๋ด์ฉ
- Two side test : ์ํ ๋ฐ์ดํฐ์ ํ๊ท ์ด 'X'์ ๊ฐ๋ค / ๊ฐ์ง ์๋ค ๋ฅผ ๊ฒ์ ํ๋ ๋ด์ฉ
- ๊ท๋ฌด๊ฐ์ค : ๋ ํ๋ฅ ์ ๊ฐ๋ค.(์ฐจ์ด๊ฐ ์๋ค.)
H0:x¯1=x¯2 - ๋์๊ฐ์ค : ๊ฐ์ง ์๋ค.
H1:x¯1≠x¯2
- ๋์ ๊ฐ์ค(Alternative Hypothesis)๋ฅผ ์ค์ ex) not fair coin, p != 0.5
- 2๊ฐ์ sample ๊ฐ๋ค์ ํ๊ท ์ด ์๋ก ๋์ผํ์ง ๋น๊ต
2๊ฐ์ ๋์ (500์ vs 100์)์ ์ฌ๋ฌ๋ฒ ๋์ ธ์ p(H)์ ํ๊ท ์ด ์ ์ฌํ์ง - ๋ณดํต 95%์ ์ ๋ขฐ๋๋ฅผ ๊ธฐ์ค์ผ๋ก ์ํ๊ฐ์ 0.05๋ก ํ๊ณ
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL]8.Confidence Intervals (0) | 2021.11.27 |
---|---|
[TIL]7.Hypothesis Test + (0) | 2021.11.26 |
[TIL]1.Exploratory Data Analysis(EDA) (0) | 2021.11.24 |
[TIL]5.์ฝ๋์คํ ์ด์ธ AI ์คํ๋ฆฐํธ ์ฑ๋ฆฐ์ง (0) | 2021.11.24 |
00. ๋ถํธ์บ ํ์ ๋ค์ด๊ฐ๊ธฐ์ ์์ (2) | 2021.11.15 |