연관 포스팅 :
1. 목표
- MCMC 샘플링을 이용한 분포의 파라미터(모수) 추정.
- 예시 : 평균이 10이고, 표준편차가 3인 정규분포를 모집단으로 두고, 모집단에서 1,000개의 샘플을 뽑은 표본 집단이 있다고 하자. 즉, 우리의 목표는 1,000개의 샘플만을 이용해 30,000개의 전체 모집단의 평균(즉, 정규분포의 모수 중 하나)를 더 잘 추정해보고자 함.
- 아래 그림과 같이 만약 1,000개의 데이터가 주어졌을 때 이 데이터들이 어떤 분포로부터 나왔다고 말할 수 있는지 알아보는 것! 여기서는 평균만 추정할 것임.
- MLE(Maximum Likelihood Estimation)과 다른 점은 MLE는 모든 x에 대해 가능도(likelihood) 값이 점검되었다면, MCMC를 이용하는 경우 제안분포를 통해 관찰하고자 하는 평균값을 제안받아 점검이 진행됨.
2. 추정과정
2.1 Random Initialization
- 타겟분포는 정규분포, 모수는 평균과 표준편차, 여기서는 평균에 대해서만 추정. 표준편차는 표본의 표준편차를 그대로 이용함.
- 첫번째 평균값은 임의로 1에서부터 시작.
2.2 제안분포로부터 다음 모수 제안 받기
- MCMC 샘플링에서처럼 제안분포로부터 새로운 평균값을 제안받음.
- 처음 평균값인 1을 중심으로 제안분포(여기서는 표준편차가 0.5인 정규분포를 사용)를 그리고, 이 분포를 따르는 다른 포인트(x), 즉 평균값을 제안받음.
2.3 받은 제안을 수락 및 거절하기
- 제안분포로부터 제안받은 평균값을 제안 및 거절할 것인데, 이 때의 기준은 아래 그림과 같음.
- 여기서 베이즈 정리가 등장함. 만약 주어진 데이터, 즉 샘플 하에서 제안받은 새로운 모수가 기존의 모수에 비해 현재의 데이터를 더 잘 설명하고 있다면(신뢰도가 더 높다면) 제안을 수락하고, 그렇지 않으면 거절함.
- 그림 3의 정리된 식을 보면 (가능도 * 사전확률) / (가능도 * 사전확률) > 1 형태로 되어있음.
- 타겟분포가 정규분포라는 점에 근거해 로그가능도를 정의하고, 식을 정리해주면 그림 4와 같이 됨.
- 이 때, 사전확률 부분은 mu값이 최소한 양수다 정도의 배경지식만으로도 설정이 가능하지만, 더 좋은 사전확률을 생각해낼 수록 추정이 더 빨리 수렴됨.
2.4 패자부활전
- 제안수락의 기준식으로 인해 거절된 평균값의 경우 MCMC 샘플링에서와 마찬가지로 기준식이 u (u~Uniform[0,1]) 보다 클 경우 부활할 수 있음.
참고자료
https://www.youtube.com/watch?v=x0qhLFnTfV8&list=WL&index=1
'🥐데이터분석' 카테고리의 다른 글
Bias-Variance Trade off(편향-분산 트레이드오프/ 딜레마)란? (0) | 2021.09.09 |
---|---|
Hierarchical Bayesian model (베이지안 계층모형) (0) | 2021.08.19 |
Markov Chain Monte Carlo (MCMC) Sampling, MCMC 샘플링 (0) | 2021.08.18 |
[CLV/LTV 예측] Pareto/NBD 모델 (0) | 2021.08.18 |
Bayesian Theorem(베이즈 정리), 베이즈 통계학 기초 (0) | 2021.08.18 |