๐Ÿ’ฟ Data/๋ถ€ํŠธ์บ ํ”„

[TIL]45.8_Section1_sprint2_๊ฐœ์ธ๋ณต์Šต(์ฃผ๋ง)

Jayden1116 2022. 1. 17. 00:35

Section1_sprint2(์ค‘์š”ํ•˜๊ฒŒ ๊ฐœ๋… ์žก๊ณ ๊ฐ€์•ผํ•  ํ†ต๊ณ„ ํŒŒํŠธ)

๊ธฐ์ˆ  ํ†ต๊ณ„ : ํ‰๊ท , ๋ถ„์‚ฐ, ํ‘œ์ค€ํŽธ์ฐจ ๋“ฑ๋“ฑ ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ค๋ช… ๋ฐ ๋ฌ˜์‚ฌํ•˜๋Š” ํ†ต๊ณ„
์ถ”๋ฆฌ ํ†ต๊ณ„ : ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ถ”๋ก /์˜ˆ์ธกํ•˜๋Š” ํ†ต๊ณ„ ex) ์„ค๋ฌธ์กฐ์‚ฌ๋ฅผ ํ†ตํ•œ ๋“ํ‘œ์œจ ์˜ˆ์ธก

์ƒ˜ํ”Œ๋ง ๋ฐฉ์‹ ์—ฌ๋Ÿฌ๊ฐ€์ง€

๊ฐ€์„ค ๊ฒ€์ • : ์ฃผ์–ด์ง„ ์ƒํ™ฉ์— ๋Œ€ํ•ด ํ•˜๊ณ ์žํ•˜๋Š” ์ฃผ์žฅ์ด ๋งž๋Š”์ง€ ์•„๋‹Œ์ง€ ํŒ์ •ํ•˜๋Š” ๊ณผ์ •

  • ๋ชจ์ง‘๋‹จ์— ๋Œ€ํ•œ ํ‘œ๋ณธ์ง‘๋‹จ์˜ ํ†ต๊ณ„์น˜๊ฐ€ ์œ ์˜ํ•œ์ง€ ์•„๋‹Œ์ง€ ์—ฌ๋ถ€ ๊ฒฐ์ •

Student T-test

  • One sample T-test๊ท€๋ฌด๊ฐ€์„ค(H0) : ํ‘œ๋ณธ์ง‘๋‹จ์˜ ํ‰๊ท  = ์–ด๋–ค ํŠน์ • ๊ฐ’
    ๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : ํ‘œ๋ณธ์ง‘๋‹จ์˜ ํ‰๊ท  != ์–ด๋–ค ํŠน์ • ๊ฐ’
from scipy.stats import ttest_1samp

p-value : ์ฃผ์–ด์ง„ ๊ฐ€์„ค์— ๋Œ€ํ•ด '์–ผ๋งˆ๋‚˜ ๊ทผ๊ฑฐ๊ฐ€ ์žˆ๋Š”์ง€'๋ฅผ ๋‚˜ํƒ€๋‚ธ ๊ฐ’ -> ๊ท€๋ฌด๊ฐ€์„ค์ด ํ‹€๋ฆฌ์ง€ ์•Š์•˜์„ ํ™•๋ฅ 

  • Two sample T-test๊ท€๋ฌด๊ฐ€์„ค(H0) : ํ‘œ๋ณธ์ง‘๋‹จ A ์˜ ํ‰๊ท  = ํ‘œ๋ณธ์ง‘๋‹จ B ์˜ ํ‰๊ท 
    ๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : ํ‘œ๋ณธ์ง‘๋‹จ A ์˜ ํ‰๊ท  != ํ‘œ๋ณธ์ง‘๋‹จ B ์˜ ํ‰๊ท 
from scipy.stats import ttest_ind

t-test์˜ 3๊ฐ€์ง€ ์กฐ๊ฑด

  1. ๋…๋ฆฝ์„ฑ
  2. ์ •๊ทœ์„ฑ -> ๋ณดํ†ต qqplot ํ˜น์€ normaltest๋กœ ๊ฒ€์ฆ
  3. ๋“ฑ๋ถ„์‚ฐ์„ฑ

์ถ”๊ฐ€)

  • one side(tail) test : ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ ํ‰๊ท ์ด A๋ณด๋‹ค ํฌ๋‹ค/์ž‘๋‹ค ๊ฒ€์ฆ
  • two side(tail) test : ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ ํ‰๊ท ์ด A์™€ ๊ฐ™๋‹ค/์•„๋‹ˆ๋‹ค ๊ฒ€์ฆ

X^2 test(์นด์ด์ œ๊ณฑ ๊ฒ€์ฆ, categorical data์— ์‚ฌ์šฉ)

  • One sample X2-test๊ท€๋ฌด๊ฐ€์„ค(H0) : ํ‘œ๋ณธ์ง‘๋‹จ์˜ ๋ถ„ํฌ๊ฐ€ ๊ณ ๋ฅด๊ฒŒ ๋ถ„ํฌํ•œ๋‹ค. ex) ์ฃผ์‚ฌ์œ„ 60๋ฒˆ ๋˜์กŒ์„ ๋•Œ, ๊ฐ ์ˆซ์ž๊ฐ€ ์ •ํ™•ํžˆ 10๋ฒˆ์”ฉ ๋‚˜์˜ค๋Š” ๋ถ„ํฌ
    ๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : ๋ถ„ํฌ๊ฐ€ ๊ณ ๋ฅด์ง€ ์•Š๋‹ค.
from scipy.stats import chisquare
  • Two sample X2-test๊ท€๋ฌด๊ฐ€์„ค(H0) : ํ‘œ๋ณธ์ง‘๋‹จ A ์™€ ํ‘œ๋ณธ์ง‘๋‹จ B๊ฐ€ ๋…๋ฆฝ์ด๋‹ค.
    ๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : ํ‘œ๋ณธ์ง‘๋‹จ A ์™€ ํ‘œ๋ณธ์ง‘๋‹จ B๋Š” ๋…๋ฆฝ์ด ์•„๋‹ˆ๋‹ค.(์ฆ‰, ์—ฐ๊ด€์ด ์žˆ๋‹ค.)
from scipy.stats import chi2_contingency

์ถ”๊ฐ€)
categorical data๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด

df[['A', 'B']].astype('category') # A์™€ B ์ปฌ๋Ÿผ์˜ ์ž๋ฃŒํ˜•์„ category๋กœ ๋ฐ”๊ฟˆ
pd.crosstab(df['A'], df['B']) # A์™€ B ์ปฌ๋Ÿผ์˜ ๋ฒ”์ฃผ์— ๋”ฐ๋ฅธ ๊ด€์ธก์น˜ ์ˆ˜๋ฅผ ํ•˜๋‚˜์˜ ํ‘œ๋กœ ๋งŒ๋“ค์–ด์คŒ

# ์œ„ ๋‘๊ฐ€์ง€ ๊ธฐ์–ต

F-value

  • ๊ทธ๋ฃน ๊ฐ„ ๋ถ„์‚ฐ / ๊ทธ๋ฃน ๋‚ด ๋ถ„์‚ฐ
  • ์ฆ‰, 'F๊ฐ’์ด ํฌ๋‹ค' -> ๊ทธ๋ฃน ๊ฐ„ ๋ถ„์‚ฐ์€ ํฌ๊ณ , ๊ทธ๋ฃน ๋‚ด ๋ถ„์‚ฐ์€ ์ž‘๋‹ค. ์ฆ‰, '๊ทธ๋ฃน๋ผ๋ฆฌ ์ฐจ์ด๊ฐ€ ์กด์žฌํ•œ๋‹ค.'๋ฅผ ์˜๋ฏธ
from scipy.stats import f_oneway

-> ANOVA TEST(๋…๋ฆฝ๋ณ€์ˆ˜ ์ˆ˜์— ๋”ฐ๋ผ one way, two way๊ฐ€ ์žˆ์Œ)

๊ท€๋ฌด๊ฐ€์„ค(H0) : ๊ฐ ๊ทธ๋ฃน์˜ ์ฐจ์ด๊ฐ€ ์—†๋‹ค.
๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : ๊ฐ ๊ทธ๋ฃน์˜ ์ฐจ์ด๊ฐ€ ์ ์–ด๋„ ํ•˜๋‚˜ ์žˆ๋‹ค.

ํฐ ์ˆ˜์˜ ๋ฒ•์น™ : sample ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๋ชจ์ง‘๋‹จ๊ณผ ๊ฐ™์•„์ง„๋‹ค. ๋ณดํ†ต ์ƒ˜ํ”Œ 30๊ฐœ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์žก์Œ
์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ(Central Limit Theorem ; CLT) : ๋™์ผํ•œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง„ ๋…๋ฆฝ ํ™•๋ฅ  ๋ณ€์ˆ˜ n๊ฐœ์˜ ํ‰๊ท ์˜ ๋ถ„ํฌ๋Š” n์ด ์ ๋‹นํžˆ ํฌ๋‹ค๋ฉด ์ •๊ทœ๋ถ„ํฌ์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค๋Š” ์ •๋ฆฌ, ์ฆ‰ ์—ฌ๋Ÿฌ sample์˜ ํ‰๊ท ์ด ์ •๊ทœ๋ถ„ํฌ์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค๋Š” ๋œป

์ถ”์ •(estimate)

  • ์  ์ถ”์ •(point estimate) : ex) ์šฐ๋ฆฌ๋‚˜๋ผ ๋‚จ์„ฑ ํ‰๊ท  ํ‚ค๋Š” 175cm์ผ ๊ฒƒ์ด๋‹ค.
  • ๊ตฌ๊ฐ„ ์ถ”์ •(interval estimate) : ex) ์šฐ๋ฆฌ๋‚˜๋ผ ๋‚จ์„ฑ ํ‰๊ท  ํ‚ค๋Š” 170 ~ 180cm ์ •๋„์ผ ๊ฒƒ์ด๋‹ค.

์‹ ๋ขฐ๋„

  • ์‹ ๋ขฐ๋„ 95%์˜ ์˜๋ฏธ : ํ‘œ๋ณธ์„ 100๊ฐœ ๋ฝ‘์•˜์„ ๋•Œ 95๊ฐœ๊ฐ€ ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๋‚ด์— ํฌํ•จ๋œ๋‹ค.

๋ฒ ์ด์ง€์•ˆ

  • ํ•ต์‹ฌ : ๊ฐ€์„ค์„ ์—…๋ฐ์ดํŠธ ํ•œ๋‹ค๋Š” ๊ฒƒ

P(B) = P(B|A) * P(A) + P(B|A^c) * P(A^c)

์œ„ 2๊ฐ€์ง€ ๊ณต์‹ ์ดํ•ด ๋ฐ ๊ธฐ์–ต

๊ทธ๋ฆฌ๊ณ  ๋ฒ ์ด์ง€์•ˆ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๋•Œ๋Š” ๋ฐ˜๋“œ์‹œ ๋„ค๋ชจ ๊ทธ๋ ค์„œ ์‹ค์ œ ํ™•๋ฅ  ๋ฐ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ํ‘œ์‹œํ•ด๊ฐ€๋ฉด์„œ ์ƒ๊ฐํ•˜์ž!

 

์ถ”๊ฐ€)
๋ชฌํ‹ฐํ™€ ์ •๋ฆฌ๋„ ๋ฒ ์ด์ง€์•ˆ์œผ๋กœ ํ•ด๊ฒฐ์ด ๋˜๋Š” ๊ฒƒ ๊ธฐ์–ตํ•˜์ž!