목표

조건부 확률에 대한 이해
베이지안 통계의 개념

베이지안의 핵심은 '기존 가설'에 '새로운 정보'를 토대로 '업데이트' 한다는 점

몬티홀

문 3개 뒤에 염소 2마리, 차 1대. 선택 후 답을 알고 있는 진행자가 나머지 2개 중 1개의 뒤에 염소가 있음을 보여줌
이후 선택을 바꿀 것인지 말것인지. 당연히 바꾸는 게 개이득

총 확률의 법칙(The Law of Total Probability)

A라는 특정 확률 변수에 대해, 모든 가능한 이벤트의 총 확률은 1이다.

$$P(A)=∑P(An)=1$$

조건부 확률(The Law of Cinditional Probability)

다른 이벤트가 일어난 상황에서의 확률

$$P(A|B) = {P(A∩B) \over P(B)}$$

전체 사각형이 모든 가능한 확률 공간이고,

A는 좌측원, B는 우측원, 교집합이 붉은 부분
위의 식에 P(B) 를 양변에 곱하면, $$P(A|B)P(B) = P(A∩B)$$ 와 같은 식을 얻을 수 있다.
이는 곧 $$P(A|B) = ∑P(A∩Bn)$$

즉, B라는 정보가 주어진 상황에서 A의 확률은 B와 교집합들의 합으로 구성되어있음을 알 수 있다.

베이지안 이론(Bayes Theorem)

$$P(A|B)={P(A∩B) \over P(B)} $$

$$P(B|A)={P(B∩A) \over P(A)}$$

정리하면

$$P(A|B) = {P(B|A)P(A) \over P(B)}$$

P(A|B) -> 사후 확률. (B라는 정보가 업데이트 된 이후의 사(이벤트)후 확률)
P(A) -> 사전 확률. B라는 정보가 업데이트 되기 전의 사전확률
P(B|A) -> data(Likelihood; 가능도, 우도)

즉, 베이지안 이론은 가설에 새로운 데이터가 들어오면 그 가설이 계속 업데이트됨

Warm up 예시

초콜렛을 받았을 때, 호감 확률 계산

이 사람이 나한테 호감이 있고 (P(B)), 그래서 초콜렛을 줬다 (P(A|B))

2) 이 사람이 나한테 호감은 없고 (P(notB)), 예의상 초콜렛을 줬다 (P(A|notB))

$$P(A)=P(A|B)P(B) + P(A|B^c)P(B^c)$$

개인적으로 위의 식을 아는 게 정말정말정말 중요하다고 생각...!!!

💉 베이지안 테스트를 반복하여 사용 (repeated testing)

다음은 Wikipedia로 부터의 예시입니다.

가정 : 약물을 실제 사용 하는 경우 결과가 양성일 확률은 99%

베이지안을 적용하는 예시는 매우 많지만, 그중 하나는 약에 대한 양성반응 테스트 입니다.

일반적으로, 이 테스트에서 양성반응이 나온 경우 실제로 약물이 신체에 포함되어 있을 것이라고 생각하지만.

만약 1%의 위양성 (False positive, 실제로 약물이 없지만 양성반응이 나타남)이 존재하는 경우에도 테스트의 의미는 매우 크게 바뀝니다.

실제 분석을 위해, 전체 인구에서 0.5%, ($1/200$) 만이 실제로 약물이 신체에 포함되어 있다고 가정해보도록 하겠습니다.

양성반응 테스트의 결과가 양성으로 나왔을 경우 실제로 약물이 있을 확률은 어느정도가 될까요?

단순히 생각하면, False positive를 제외한 99%라고 생각 할 수 있습니다만 우리는 이제 사전확률과 사후확률을 사용 할 수 있기 때문에 베이지안을 통해 검증해보도록 하겠습니다.

다음 계산 결과에서, $User$는 실제 약물이 발견 되는 사람, $+$는 양성반응입니다.

$Bayes Theorem Drug Test Example$

즉, 오직 33.2% 정도 만이 양성반응이 나왔다고 해도 실제로 약물을 포함 하는 경우입니다.

이러한 이유로 인해 실제 상황에서는 여러번 반복해서 실험을 합니다.

만약 2번을 반복 해서 모두 양성이 나오는 경우, 3번을 반복하는 경우... 에 따라서, 양성반응이 실제 약물로 부터 나온 결과일 확률은 매우 높아집니다.

이처럼 베이지안은 약물의 반응, 음주 측정, 임신 여부와 같이 많은 부분에서 사용되며, 이에 대하여 항상 false positive rate와 사전확률을 통해 정확한 확률을 계산 할 수 있어야 합니다.

몬티홀 with 베이지안

가정
처음에 1번 문을 선택함

$$H : Hypothesis : 1번 문 뒤에 자동차가 있음$$ $$E : Evidence : 진행자가 염소가 있는 문을 1개 열어줌$$

$$베이지안
P(A|B)=P(B|A)P(A)P(B)$$

$$우리의 목적 : 진행자가 문을 보여준 상태 : P(E) 에서 선택했던 문에 자동차가 있을 확률 P(H) -> P(H|E)$$

우리가 구해야 하는 것
$$P(E|H)$$

$$P(E|H) = 1번 문에 자동차가 있는 상황에서 진행자가 염소가 있는 문을 1개 열어줄 확률 = 1$$

$$P(H)$$

$$P(H) = 자동차가 1번문에 있을 확률 : {1 \over 3} $$

$$P(E|notH)$$

$$마찬가지로 P(E|notH) = 1$$

$$P(notH)$$

$$P(notH) = {2 \over 3}$$

계산
$$P(H|E)={1⋅{1 \over 3} \over (1⋅{1 \over 3} +1⋅{2 \over 3})} ={{1 \over 3} \over 1} = {1 \over 3}$$

염소가 있는 다른 문이라는 추가 정보(E)가 있는 상황에서 처음에 선택했던 1번 문에 자동차가 있을 확률(H)은 $$ {1 \over 3}$$

약물 양성반응 예시 계산


# 베이지안 계산을 위해서는 4개의 변수가 필요합니다.

p_pos_used = 0.99 # True positive rate (TPR, Sensitivity)
p_used = 0.005 # prior probability
p_pos_not_used = 0.01 # False positive rate (FPR)
p_not_used = 1 - p_used # 1 - p_used  

numerator = p_pos_used * p_used 

denominator = (p_pos_used * p_used) + (p_pos_not_used * p_not_used)

posterior_probability = numerator / denominator

posterior_probability

0.33221476510067116

p_pos_used = 0.99 # TPR
p_used = 0.332 # prior probability
p_pos_not_used = 0.01 # FPR
p_not_used = 1 - p_used # 1 - p_used  

numerator = p_pos_used * p_used 

denominator = (p_pos_used * p_used) + (p_pos_not_used * p_not_used)

posterior_probability = numerator / denominator

posterior_probability

0.980081106870229

p_pos_used = 0.99 # TPR 
p_used = 0.98008 # prior probability
p_pos_not_used = 0.01 # FPR
p_not_used = 1 - p_used # 1 - p_used  

numerator = p_pos_used * p_used 

denominator = (p_pos_used * p_used) + (p_pos_not_used * p_not_used)

posterior_probability = numerator / denominator

posterior_probability #99.979%

# p_value = 1 - posterior_probability

0.9997947404084419

여기서 잠깐!

이거 집고 넘어가기~~ 기억해라잉! 실제로 베이지안 확률 이용할 때도 이렇게 네모로 각 확률 해당영역 그려서 생각하는 거 잊지말기!!

동전 던지기 with 베이지안

처음 가정 = 동전을 던졌을때 앞면이 나올 확률은 0부터 1까지 고르게 분포해있다. (사전 정보 없음)
동전을 여러번 던지면서 해당 정보를 반영하고,
이를 통해 동전을 던졌을때 앞면이 나올 확률을 점점 추정하는 과정

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
from IPython.core.pylabtools import figsize

figsize(15, 9)

dist = stats.beta
n_trials = [0, 1, 2, 3, 4, 5, 8, 15, 50, 300, 500, 1000]
data = stats.bernoulli.rvs(0.5, size = n_trials[-1]) # binomial with p(h) = 0.5
x = np.linspace(0, 1, 100)

for k, N in enumerate(n_trials):
  sx = plt.subplot(len(n_trials) / 2, 2, k+1)
  plt.xlabel("P(H)", fontsize = 13) if k in [0, len(n_trials) - 1] else None
  plt.setp(sx.get_yticklabels(), visible = False)
  heads = data[:N].sum()
  y = dist.pdf(x, 1 + heads, 1 + N - heads)
  plt.plot(x, y, label = 'Trial %d \n Head %d Times' % (N, heads))
  plt.fill_between(x, 0, y, color = '#348abd', alpha = .4)
  plt.vlines(0.5, 0, 4, color = 'k', linestyles = '--', lw = 1)

  leg = plt.legend()
  leg.get_frame().set_alpha(0.4)
  plt.autoscale(tight = True)

plt.suptitle('Bayesian Update (Probability of Head)', y = 1.02, fontsize = 14)
plt.tight_layout()
# 우리는 동전 앞뒷면이 1/2이라는 것을 알지만, 모르는 2살 애기라고 했을 때 이렇게 계속 시도하면 알게 됨.

신뢰구간 with 베이지안

import numpy as np

from scipy import stats

coinflips = np.random.binomial(1, 0.5, 20)
coinflips

array([1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0])

Frequency 기반 신뢰구간 추정

def confidence_interval(data, confidence = 0.95):

    """
      주어진 데이터의 표본 평균에 대한 신뢰 구간을 계산합니다.
      기본 값으로 t-분포와 양방향 (two-tailed), 95%의 신뢰도를 사용합니다. 

      입력 값 : 
        data - 여러 개로 이루어진 (list 혹은 numpy 배열) 표본 관측치
        confidence - 신뢰구간을 위한 신뢰도 

      반환 되는 값:
        (평균, 하한, 상한구간)으로 이루어진 tuple
    """

    data = np.array(data)
    mean = np.mean(data)
    n = len(data)
    s = data.std(ddof = 1)
    stderr = s / np.sqrt(n)
    print(stderr)

    t = stats.t.ppf( (1 + confidence) / 2.0 , n - 1)
    margin_of_error = t * stderr
    interval = stderr * stats.t.ppf((1 + confidence) / 2.0, n - 1)
    return (mean, mean - interval, mean + interval)

confidence_interval(coinflips)

0.1094243309804831
(0.35, 0.12097224312031754, 0.5790277568796824)

Bayesian 기반 신뢰구간 추정(Scipy 사용)

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.bayes_mvs.html#scipy.stats.bayes_mvs

mean_CI, _, _ = stats.bayes_mvs(coinflips, alpha = .95) # mean , variance, std

# mean_cntr, var_cntr, std_cntr

mean_CI

# 윗 결과와 유사함

Mean(statistic=0.35, minmax=(0.12097224312031751, 0.5790277568796824))

추가 : Bayesian Optimization

추후 머신러닝, 딥러닝에서 파라미터를 업데이트하는 용도로 베이지안이 사용된다. 데이터가 업데이트되면서 점차 모델을 피팅하는 개념이라고만 알아두자!

'💿 Data > 부트캠프' 카테고리의 다른 글

[TIL]11.Vector and Matrix (0)	2021.12.01
[TIL]10.스프린트 챌린지 (0)	2021.12.01
[TIL]4.Basic Derivative (0)	2021.11.27
[TIL]3.Data Manipulation(개인적으로 잘 알아야 된다고 느꼈던 부분) (0)	2021.11.27
[TIL]2.Feature Engineering (0)	2021.11.27

[TIL]9.Bayesian Inference

목표

몬티홀