1. 정의
- 베이지안 계층모형은 계층적 형태로 구성된 통계적 모델로, 베이지안 방법론을 이용해 사후분포의 파라미터를 추정한다.
- 마케팅쪽에서는 주로 하나의 모델은 within-unit 분석이고, 다른 모델은 across-unit 분석을 진행해야 할 경우 사용한다.
- 여기서 within-unit 분석이란 예를 들어 고객의 시간에 따른 행동데이터에 관한 모델이고, across-unit 분석은 고객 개개인의 이질성, 다양성에 관한 분석이라 할 수 있다.즉, Pareto/NBD 모델을 예로 들어 설명하자면 고객이 살아있는 동안 구매행동은 평균이 lambda인 Poisson process를 따르는데, lambda는 다시 gamma 분포를 따른다.(고객들 간의 이질성)
- 베이지안 계층모형의 모수추정에는 MCMC가 자주 함께 사용된다.
2. 구성요소
- 베이지안 계층모형에서 사후확률을 구하는 과정에 있어 사용되는 두 가지 중요한 개념이 있는데, 바로 'Hyperparameters'와 'Hyperpriors'이다.
- 'Hyperparameters' : 사전분포의 파라미터(paratmeters of the prior distribution)
- 'Hyperpriors' : 하이퍼파라미터의 분포(distributions 0f Hyperparameters)
- 확률변수 Y가 평균이 theta 이고, 분산이 1인 정규분포를 따른다고 가정하자. 즉, 평균이 theta 일 때 Y의 분포 => Y | theta ~ N(theta, 1)
- 이 때, 파라미터 theta가 평균이 mu이고, 분산이 1인 정규분포를 따른다고 가정하자. 즉, 평균 mu 하에서 theta의 분포 => theta | mu ~ N(mu, 1)
- 마지막으로 mu는 표준정규분포를 따른다. => mu ~ N(0,1), 여기서 mu는 hyperparameter, 표준정규분포는 hyperprior distribution이라 한다.
3. 예시
서울시 관악구에서 감염성 질환의 유병률을 조사하고자 한다. 20명의 표본을 뽑아서 감염 여부를 조사한 결과 아무도 감염된 사람이 없었다. 그런데 다른 구의 유병률을 살펴본 결과 일반적으로 5%에서 최대 20%까지 분포하고 있으며, 서울시 전체의 유병률은 10%였다. 이 때 관악구의 유병률(theta)을 0%라고 추정하는 것이 합리적일까?
3.1 가능도
- y=0 | theta ~ 이항분포(n, theta)
3.2 사전분포
- theta ~ Beta(a,b) => 보통 가능도가 이항분포일 경우 사전분포는 베타분포로 많이 둔다.
- 이 때 사전분포의 파라미터 a,b는 기존의 지식, 즉 서울시 전체와 다른 구들의 유병률을 보았을 때 평균이 0.1이고, 범위가 0.05~0.20 이라는 점을 착안해 결정한다. 여기서는 a = 2, b=20이라고 가정한다.
- 베타분포의 평균은 a/(a+b)이다.
3.3 사후분포
- 사전분포가 베타분포인 경우 사후분포도 베타분포를 따른다.
- theta | y=0 ~ Beta(a+y, b+n-y) => 여기서는 a = 2, y=0, n=20, b=20 이므로 Beta(2, 40).
- 사후분포의 평균은 (a+y)/(a+b+n) 이므로, 여기서는 0.048이 된다. 즉, 사전분포의 평균 0.09에서 가지고 있는 데이터로 업데이트 된 사후분포가 0.048인 것이다.
- 아래 그림1을 보면 사후분포의 평균은 가능도(이항분포)의 평균과 사전분포의 평균의 가중평균임을 알 수 있다. 여기서 w는 'degree of confidence(신뢰도)'라 하며, 이 값이 커질수록 사전분포의 기댓값에 가까워지게 된다.
- 그림2를 보면 회색선의 사전분포보다 검은선의 사후분포가 0에 더 많이 몰려있는 것을 볼 수 있는데, 이는 실제 데이터(20개 중 20개가 전부 0)를 반영해 업데이트 된 결과이다.
참고자료
http://www.kmooc.kr/courses/course-v1:SNUk+SNU064.020k+2021_T1/about
https://en.wikipedia.org/wiki/Bayesian_hierarchical_modeling#Hierarchical_models
Hierarchical Bayes Models:A Practitioners Guide(2005)
'🥐데이터분석' 카테고리의 다른 글
중심극한정리(Central Limit Theorem), 신뢰구간(Confidence Interval) (0) | 2021.09.10 |
---|---|
Bias-Variance Trade off(편향-분산 트레이드오프/ 딜레마)란? (0) | 2021.09.09 |
MCMC를 이용한 베이지언 추정(Bayesian Estimation) (0) | 2021.08.19 |
Markov Chain Monte Carlo (MCMC) Sampling, MCMC 샘플링 (0) | 2021.08.18 |
[CLV/LTV 예측] Pareto/NBD 모델 (0) | 2021.08.18 |