Hypothesis Test

기술 통계치(descriptive Statistics)란

count, mean, standard dev, min, 1Q, median, 3Q, max 등의 데이터를 설명하는 통계치기술 통계치의 시각화
Boxplot
Bagplot(가방처럼 생김, 난해해서 잘 쓰이진 않는다.)
Violinplot(박스플롯에서 데이터 분포까지 보여준다. 개인적으로 가장 맘에 드는 플랏)
기술 통계치 보는 코드이외에도 Mode, Range, Var / SD, Kurtosis(첨도), Skewness(왜도) 등이 있다리~
df.describe()

추리 통계치(Inferential Statistics)란

Population, Parameter ,Statistics, Estimator, Standard Deviation, Standard Error 등 표본을 통한 모집단 추리 통계치

Effective Sampling(데이터의 형태에 따라서 효과적인 샘플링 방법들이 존재)

Simple Random Sampling
Systematic Sampling

모집단에서 sampling을 할 때 특정 규칙을 가지고 추출하는 방법.
ex) 1, 6, 11, 16 번째의 데이터를 선택한다.
Stratified Random Sampling

모집단을 미리 여러 그룹으로 나누고, 그룹별로 무작위 추출을 수행합니다.
ex) 여론조사를 위해 사람을 나이대 별로 나누고, 해당 그룹내에서 무작위 추출
Cluster Sampling

모집단을 미리 여러 그룹으로 나눈 후, 특정 그룹에서 무작위로 선택하는 방법

가설 검정

주어진 상황에 대해서 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정
모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정

여기서 잠깐 난수 생성에서 팁

np.random.seed(int)

np.random을 통한 난수를 생성하는 것은 정말 랜덤한 거처럼 보이지만 실제로는 난수를 생성하는 메커니즘을 통해 나온다.
즉, seed() 안에 들어가는 숫자가 같으면 발생하는 난수 집단이 동일하게 된다! 그런 의미에서 난수 발생의 seed를 설정해주는 것!

표준 평균의 표준 오차(Standard Error of the Sample Mean)

ex) 초록색이 1000번, 파란색이 100번, 노란색이 10번 추출한 것과 같음. 겉에 가장 큰 원이 모수집단이라 생각하면 된다.

SE : 표준 평균의 표준 오차
s : 표본의 표준편차(sample standard deviation)
n : 표본의 수(sample size)
n값(표본의 수)이 커질수록 에러는 작아진다. 즉, 표본의 수가 많아질수록, 추측은 더 정확해지고 높은 신뢰도를 바탕으로 모집단에 대해 예측할 수 있도록 한다.

Student T-test(Student라는 사람이 만든 T-test)

One Sample t-test

1개의 sample 값들의 평균이 특정값과 동일한지 비교 ex) 동전이 공정한지 확인하려고 할 때, p(x=H)=0.5
모집단에 대한 정보와 표본의 데이터를 비교
- 위 통계치는 평균을 빼고 표준편차로 나눠줬는데 이런 과정을 정규화라고 한다.
- 주어진 데이터가 평균은 0, 표준편차가 1인 데이터로 scaling 된다.

T-test Process

귀무가설(Null Hypothesis)를 설정 ex) fair coin, p=0.5
H0 : μ=x¯
μ : 모집단의 평균
x¯ : 표본의 평균
1. 대안 가설(Alternative Hypothesis)를 설정 ex) not fair coin, p != 0.5
  H1:μ≠x¯
2. 신뢰도를 설정(Confidence Level) : 모수가 신뢰구간 안에 포함될 확률(보통 95%, 99% 를 사용)
  신뢰도 95%의 의미
- 모수가 신뢰 구간 안에 포함될 확률이 95%
- 귀무가설이 틀렸지만 우연히 성립할 확률이 5%
1. p-values를 확인
- p-value는 주어진 가설에 대해서 "얼마나 근거가 있는지"에 대한 값을 0과 1 사이의 값으로 scale한 지표
- p-value가 낮다는 것은 '귀무가설이 틀렸을 확률이 높다.'를 의미한다.
- p-value는 신뢰도에 따른 알파값과 비교해서 가설에 대한 결론을 내리게 된다.T-test with scipy
- from scipy import stats scipy.stats.ttest
P-value의 기준
- pvalue < 0.05면 귀무가설 기각
- pvalue > 0.05면 귀무가설은 틀리지 않았다.('귀무가설이 옳다'와 톤이 약간 다름)
One-side test vs Two-side test
- One side test : 샘플 데이터의 평균이 'X'보다 크다 혹은 작다 / 크지않다 혹은 작지않다 를 검정하는 내용
- Two side test : 샘플 데이터의 평균이 'X'와 같다 / 같지 않다 를 검정하는 내용
Two Sample T-test
1. 귀무가설 : 두 확률은 같다.(차이가 없다.)
  H0:x¯1=x¯2
2. 대안가설 : 같지 않다.
  H1:x¯1≠x¯2
2개의 sample 값들의 평균이 서로 동일한지 비교
2개의 동전(500원 vs 100원)을 여러번 던져서 p(H)의 평균이 유사한지
보통 95%의 신뢰도를 기준으로 알파값을 0.05로 하고

'💿 Data > 부트캠프' 카테고리의 다른 글

[TIL]8.Confidence Intervals (0)	2021.11.27
[TIL]7.Hypothesis Test + (0)	2021.11.26
[TIL]1.Exploratory Data Analysis(EDA) (0)	2021.11.24
[TIL]5.코드스테이츠 AI 스프린트 챌린지 (0)	2021.11.24
00. 부트캠프에 들어가기에 앞서 (2)	2021.11.15

[TIL]6.Hypothesis Test