[TIL]8.Confidence Intervals

💿 Data/부트캠프

[TIL]8.Confidence Intervals

Jayden1116 2021. 11. 27. 03:11

ANOVA(one-way)

앞에서
원샘플 카이 : 1개 그룹의 평균이 특정 수와 같은지
투샘플 카이 : 2개 그룹의 평균이 유의미하게 다른지

2개 이상 그룹의 평균에 차이가 있는지를 가설 검정하는 방법에 대해서 배워보겠습니다.

Multiple Comparison

2개 이상의 여러 그룹을 비교하기 위해서 이런 생각을 할 수 있다.
이론상으론 가능하지만 문제가 있다.
3번의 가설 검정에서 각각 통계적으로 에러가 날 확률은 α이다.

즉, 3개의 가설 검정 중 적어도 하나에서 에러가 날 확률은
1−(1−α)^3 이고 α=0.05 기준으로 약 15 % 입니다.

수학적으로
m개 그룹에 대한 가설 검정이라면
평균α = 1−(1−α)^m , 평균α ≤ m⋅α 라는 것이 수학적으로 증명되어 있습니다.
즉, 여러개를 하나하나씩 비교 하는 것은 그룹수가 늘어날수록 에러도 커진다는 이야기죠.
이렇기 때문에 여러개의 그룹을 한꺼번에 비교 하는 방법이 필요!!!

Variation

그럼 여러 그룹간의 차이를 어떻게 확인해야하는가?
'여러 그룹들이 하나의 분포에서부터 왔다'라 가정
이를 위한 지표는 'F-statistic' 이다.

간단히 F = (집단 간 분산) / (집단 내 분산)

F 값이 크다

분자(집단 간 분산)는 크고, 분모(집단 내 분산)은 작아야한다.
즉, '다른 그룹끼리의 분포가 다를 것이다' 라는 가정이 붙게 된다.
귀무가설은 '그룹끼리 분포가 같을 것이다.'인데, F값이 매우 크면 pvalue는 매우 작게 되어 귀무가설이 기각된다.

# scipy를 이용한 oneway ANOVA(oneway, twoway는 찾아보기)
from scipy.stats import f_oneway
f_oneway(g1, g2, g3)

F_onewayResult(statistic=2.6009238802972483, pvalue=0.11524892355706169)

큰 수의 법칙

sample 데이터 수가 커질수록, sample의 통계치는 점점 모집단의 모수와 가까워진다.

중심극한정리(Central Limit Theorem, CLT)

sample 자체의 갯수가 많아질수록, 각 sample들의 평균은 정규분포에 근사한다.

Point estimate(점 추정) vs Interval estimate(구간 추정)

점추정

130cm일 것이다.

구간추정

125~135cm 정도일 것이다.
120~140cm 정도일 것이다.
1~300cm 정도일 것이다.
예측하는 '구간'이 넓어질수록 맞을 확률(신뢰도)은 올라간다.

신뢰도

신뢰도가 95% 라는 의미는 표본을 100번 뽑았을 때, 95번은 신뢰구간 내에 모집단의 평균이 포함된다.

신뢰 구간의 설정 및 해석

# 신뢰구간 구하기
from scipy import stats

def confidence_interval(data, confidence = 0.95):

  """
  주어진 데이터의 표본 **평균**에 대한 신뢰구간을 계산.
  기본 값으로 t-분포와 양방향 (two-tailed), 95%의 신뢰도를 사용합니다.

  입력 값 : 
    data - 여러 개로 이루어진 (list 혹은 numpy 배열) 표본 관측치
    confidence - 신뢰구간을 위한 신뢰도 

  반환 되는 값:
    (평균, 하한, 상한구간)으로 이루어진 tuple
  """

  data = np.array(data)
  mean = np.mean(data)
  n = len(data)

  # std / sqrt(n)
  stderr = stats.sem(data) 
  # Standard Error of Mean (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.sem.html)
  # s / sqrt(n)

  # length_of_one_interval
  interval = stderr * stats.t.ppf( (1 + confidence) / 2 , n - 1) # ppf : inverse of cdf
  return (mean, mean - interval, mean + interval)

# cdf -> t 를 넣으면 %
# ppf -> % 를 넣으면 t

# 1 + 0.95 / 2 -> 0.975
# (1 - 0.95) / 2 -> 0.025

# scipy.stats에서 t 를 이용한 방법(훨씬 간편)
from scipy.stats import t

# 표본의 크기
n = len(sample)
# 자유도
dof = n-1
# 평균의 평균
mean = np.mean(sample)
# 표본의 표준편차
sample_std = np.std(sample, ddof = 1)
# 표준 오차
std_err = sample_std / n ** 0.5 # sample_std / sqrt(n)

CI = t.interval(.95, dof, loc = mean, scale = std_err) # https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html
print("95% 신뢰구간: ", CI)