Section1_sprint2(์ค์ํ๊ฒ ๊ฐ๋ ์ก๊ณ ๊ฐ์ผํ ํต๊ณ ํํธ)
๊ธฐ์ ํต๊ณ : ํ๊ท , ๋ถ์ฐ, ํ์คํธ์ฐจ ๋ฑ๋ฑ ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช
๋ฐ ๋ฌ์ฌํ๋ ํต๊ณ
์ถ๋ฆฌ ํต๊ณ : ์์งํ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ์ถ๋ก /์์ธกํ๋ ํต๊ณ ex) ์ค๋ฌธ์กฐ์ฌ๋ฅผ ํตํ ๋ํ์จ ์์ธก
์ํ๋ง ๋ฐฉ์ ์ฌ๋ฌ๊ฐ์ง
๊ฐ์ค ๊ฒ์ : ์ฃผ์ด์ง ์ํฉ์ ๋ํด ํ๊ณ ์ํ๋ ์ฃผ์ฅ์ด ๋ง๋์ง ์๋์ง ํ์ ํ๋ ๊ณผ์
- ๋ชจ์ง๋จ์ ๋ํ ํ๋ณธ์ง๋จ์ ํต๊ณ์น๊ฐ ์ ์ํ์ง ์๋์ง ์ฌ๋ถ ๊ฒฐ์
Student T-test
- One sample T-test๊ท๋ฌด๊ฐ์ค(H0) : ํ๋ณธ์ง๋จ์ ํ๊ท = ์ด๋ค ํน์ ๊ฐ
๋๋ฆฝ๊ฐ์ค(H1) : ํ๋ณธ์ง๋จ์ ํ๊ท != ์ด๋ค ํน์ ๊ฐ
from scipy.stats import ttest_1samp
p-value : ์ฃผ์ด์ง ๊ฐ์ค์ ๋ํด '์ผ๋ง๋ ๊ทผ๊ฑฐ๊ฐ ์๋์ง'๋ฅผ ๋ํ๋ธ ๊ฐ -> ๊ท๋ฌด๊ฐ์ค์ด ํ๋ฆฌ์ง ์์์ ํ๋ฅ
- Two sample T-test๊ท๋ฌด๊ฐ์ค(H0) : ํ๋ณธ์ง๋จ A ์ ํ๊ท = ํ๋ณธ์ง๋จ B ์ ํ๊ท
๋๋ฆฝ๊ฐ์ค(H1) : ํ๋ณธ์ง๋จ A ์ ํ๊ท != ํ๋ณธ์ง๋จ B ์ ํ๊ท
from scipy.stats import ttest_ind
t-test์ 3๊ฐ์ง ์กฐ๊ฑด
- ๋ ๋ฆฝ์ฑ
- ์ ๊ท์ฑ -> ๋ณดํต qqplot ํน์ normaltest๋ก ๊ฒ์ฆ
- ๋ฑ๋ถ์ฐ์ฑ
์ถ๊ฐ)
- one side(tail) test : ์ํ ๋ฐ์ดํฐ ํ๊ท ์ด A๋ณด๋ค ํฌ๋ค/์๋ค ๊ฒ์ฆ
- two side(tail) test : ์ํ ๋ฐ์ดํฐ ํ๊ท ์ด A์ ๊ฐ๋ค/์๋๋ค ๊ฒ์ฆ
X^2 test(์นด์ด์ ๊ณฑ ๊ฒ์ฆ, categorical data์ ์ฌ์ฉ)
- One sample X2-test๊ท๋ฌด๊ฐ์ค(H0) : ํ๋ณธ์ง๋จ์ ๋ถํฌ๊ฐ ๊ณ ๋ฅด๊ฒ ๋ถํฌํ๋ค. ex) ์ฃผ์ฌ์ 60๋ฒ ๋์ก์ ๋, ๊ฐ ์ซ์๊ฐ ์ ํํ 10๋ฒ์ฉ ๋์ค๋ ๋ถํฌ
๋๋ฆฝ๊ฐ์ค(H1) : ๋ถํฌ๊ฐ ๊ณ ๋ฅด์ง ์๋ค.
from scipy.stats import chisquare
- Two sample X2-test๊ท๋ฌด๊ฐ์ค(H0) : ํ๋ณธ์ง๋จ A ์ ํ๋ณธ์ง๋จ B๊ฐ ๋
๋ฆฝ์ด๋ค.
๋๋ฆฝ๊ฐ์ค(H1) : ํ๋ณธ์ง๋จ A ์ ํ๋ณธ์ง๋จ B๋ ๋ ๋ฆฝ์ด ์๋๋ค.(์ฆ, ์ฐ๊ด์ด ์๋ค.)
from scipy.stats import chi2_contingency
์ถ๊ฐ)
categorical data๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด
df[['A', 'B']].astype('category') # A์ B ์ปฌ๋ผ์ ์๋ฃํ์ category๋ก ๋ฐ๊ฟ
pd.crosstab(df['A'], df['B']) # A์ B ์ปฌ๋ผ์ ๋ฒ์ฃผ์ ๋ฐ๋ฅธ ๊ด์ธก์น ์๋ฅผ ํ๋์ ํ๋ก ๋ง๋ค์ด์ค
# ์ ๋๊ฐ์ง ๊ธฐ์ต
F-value
- ๊ทธ๋ฃน ๊ฐ ๋ถ์ฐ / ๊ทธ๋ฃน ๋ด ๋ถ์ฐ
- ์ฆ, 'F๊ฐ์ด ํฌ๋ค' -> ๊ทธ๋ฃน ๊ฐ ๋ถ์ฐ์ ํฌ๊ณ , ๊ทธ๋ฃน ๋ด ๋ถ์ฐ์ ์๋ค. ์ฆ, '๊ทธ๋ฃน๋ผ๋ฆฌ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค.'๋ฅผ ์๋ฏธ
from scipy.stats import f_oneway
-> ANOVA TEST(๋ ๋ฆฝ๋ณ์ ์์ ๋ฐ๋ผ one way, two way๊ฐ ์์)
๊ท๋ฌด๊ฐ์ค(H0) : ๊ฐ ๊ทธ๋ฃน์ ์ฐจ์ด๊ฐ ์๋ค.
๋๋ฆฝ๊ฐ์ค(H1) : ๊ฐ ๊ทธ๋ฃน์ ์ฐจ์ด๊ฐ ์ ์ด๋ ํ๋ ์๋ค.
ํฐ ์์ ๋ฒ์น : sample ์๊ฐ ์ฆ๊ฐํ ์๋ก ๋ชจ์ง๋จ๊ณผ ๊ฐ์์ง๋ค. ๋ณดํต ์ํ 30๊ฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ก์
์ค์ฌ๊ทนํ์ ๋ฆฌ(Central Limit Theorem ; CLT) : ๋์ผํ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ง ๋
๋ฆฝ ํ๋ฅ ๋ณ์ n๊ฐ์ ํ๊ท ์ ๋ถํฌ๋ n์ด ์ ๋นํ ํฌ๋ค๋ฉด ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง๋ค๋ ์ ๋ฆฌ, ์ฆ ์ฌ๋ฌ sample์ ํ๊ท ์ด ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง๋ค๋ ๋ป
์ถ์ (estimate)
- ์ ์ถ์ (point estimate) : ex) ์ฐ๋ฆฌ๋๋ผ ๋จ์ฑ ํ๊ท ํค๋ 175cm์ผ ๊ฒ์ด๋ค.
- ๊ตฌ๊ฐ ์ถ์ (interval estimate) : ex) ์ฐ๋ฆฌ๋๋ผ ๋จ์ฑ ํ๊ท ํค๋ 170 ~ 180cm ์ ๋์ผ ๊ฒ์ด๋ค.
์ ๋ขฐ๋
- ์ ๋ขฐ๋ 95%์ ์๋ฏธ : ํ๋ณธ์ 100๊ฐ ๋ฝ์์ ๋ 95๊ฐ๊ฐ ์ ๋ขฐ๊ตฌ๊ฐ ๋ด์ ํฌํจ๋๋ค.
๋ฒ ์ด์ง์
- ํต์ฌ : ๊ฐ์ค์
์ ๋ฐ์ดํธ
ํ๋ค๋ ๊ฒ
P(B) = P(B|A) * P(A) + P(B|A^c) * P(A^c)
์ 2๊ฐ์ง ๊ณต์ ์ดํด ๋ฐ ๊ธฐ์ต
๊ทธ๋ฆฌ๊ณ ๋ฒ ์ด์ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋๋ ๋ฐ๋์ ๋ค๋ชจ ๊ทธ๋ ค์ ์ค์ ํ๋ฅ ๋ฐ ์กฐ๊ฑด๋ถ ํ๋ฅ ํ์ํด๊ฐ๋ฉด์ ์๊ฐํ์!
์ถ๊ฐ)
๋ชฌํฐํ ์ ๋ฆฌ๋ ๋ฒ ์ด์ง์์ผ๋ก ํด๊ฒฐ์ด ๋๋ ๊ฒ ๊ธฐ์ตํ์!
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL]47_Git&Github and conda(๊ฐ์ํ๊ฒฝ) (0) | 2022.01.19 |
---|---|
[TIL]46_Section1_review_๋ง๋ฌด๋ฆฌ (0) | 2022.01.17 |
[TIL]45.3_Section2_sprint3_๊ฐ์ธ๋ณต์ต(์ฃผ๋ง) (0) | 2022.01.16 |
[TIL]45.5_Section1_sprint1_๊ฐ์ธ๋ณต์ต(์ฃผ๋ง) (0) | 2022.01.16 |
[TIL]45_Section2_Review(2) (0) | 2022.01.15 |