ํด๋น ๊ฒ์๊ธ์
(1) Bayesian Hierarchical modeling์ ๊ฐ๋
(2) Bayesian Hierarchical modeling ํ์ฉ ์ฌ๋ก - 2022 ๋์ ๊ฒฐ๊ณผ ์์ธก
์ ๋ํ ๋ด์ฉ์ ๋ด๊ณ ์์ต๋๋ค.
Chapter #1 - Bayesian Hierarchical modeling์ ๊ฐ๋
Bayesian Hierarchical modeling์ ๋ฌด์์ด๊ณ , ์ ์ฐ๋ ๊ฒ์ธ๊ฐ์?
Hierarchical modeling ์ด๋, ์๊ณ ์ถ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ๋ฌ ๊ณ์ธต์ผ๋ก ๊ตฌ๋ถํ์ฌ ์ถ์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์๋ฏธํฉ๋๋ค.
๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ์ฌ์ (prior) ๋ถํฌ๋ฅผ ๊ฐ์ ํ๊ณ , ์ฌํ (posterior) ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ฐ์ด ์ฐ์ผ ๋ Bayesian Hierarchical modeling์ด๋ผ ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์คํ์ด๋ ์ฌ๋ก ์กฐ์ฌ์์ ์๋ก ๋ค๋ฅธ ์ง๋จ์ ๋ํด ์ฌ๋ฌ ์ฐจ๋ก ์งํ๋ ์กฐ์ฌ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ๊ธฐ ์ํ ๋ฐฉ์์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ํ ๋ฒ ์ค์๋ ์กฐ์ฌ๋ณด๋ค๋ ์ฌ๋ฌ ์ฐจ๋ก ์ค์๋ ์กฐ์ฌ๋ฅผ ์ข ํฉํ๋ฉด ๋ ์ ๋ขฐํ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ป์ ์ ์๊ฒ ์ฃ .
์๋ฅผ ๋ค์ด ์คํ์ค์์ ์ด๋ค ์ ์ฝ์ ๊ฐ๋ฐํ์๊ณ , ์ ์ฝ์ด ์์ ๋ฐ๋ณ ํ๋ฅ ์ ๋ฎ์ถ ๊ฐ๋ฅ์ฑ์ด ์๋ค๊ณ ๊ฐ์ ํด ๋ด ์๋ค.
์์ ์ ์ฝ ์ฒ์น ์ฌ๋ถ์ ๊ด๋ จ ์์ด ๋ฐ์ํ ์ ์๊ธฐ ๋๋ฌธ์, ์๋ฌด๋ฐ ์ฒ์น๋ ํ์ง ์์ ๊ฒฝ์ฐ์ ์์ด ๋ฐ๋ณํ ํ๋ฅ ์ ๋จผ์ ์์์ผ ํฉ๋๋ค.
๋ฐ๋ผ์ ์๋ฌด๋ฐ ์ฒ์น๋ ํ์ง ์์์ ๋ ์์ด ์ด๋์ ๋ ํ๋ฅ ๋ก ๋ฐ์ํ๋์ง ํ์ธํ๊ธฐ ์ํด, ์ฅ๋ฅผ ๋์์ผ๋ก ์ฌ๋ฌ ์ฐจ๋ก ์คํ์ ์งํ ํ์์ต๋๋ค.
* ๋ฐ์ดํฐ ์ถ์ฒ : Bayesian Data Analysis - Rat Tumor
์ด 71๋ฒ์ ์๋ก ๋ ๋ฆฝ์ ์ธ ์คํ์ ์งํ ํ์๊ณ , ์คํ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ์ด ํ์ํฉ๋๋ค.
- $ y_j $ : j๋ฒ์งธ ์คํ์์ ์์ด ๋ฐ๋ณํ ์ฅ์ ์
- $ n_j $ : j๋ฒ์งธ ์คํ์์ ์ ์ฒด ์ฅ์ ์
- $ j = 1,2, ..., 71 $
- ๋ฐ์ดํฐ ํํ : $(y_j, n_j)$
- (0, 20), (0, 18), (4,20), ...
๊ฐ ์คํ์์ ์ฅ์ ์๋ $n_j$ ๋ง๋ฆฌ์ด๊ณ , ์์ด ๋ฐ๋ณํ ์ฅ์ ์๋ $y_j$ ๋ง๋ฆฌ์ ๋๋ค.
๊ฐ ์คํ์์ ์์ด ๋ฐ๋ณํ ํ๋ฅ ์ $\theta_j$ ๋ผ๊ณ ํ๋ฉด, $y_j$ ๋ ์ดํญ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์ ์๋์ ๊ฐ์ด ์์ฑํ ์ ์์ต๋๋ค.
* ์ดํญ๋ถํฌ : ์ฐ์๋ n๋ฒ์ ๋ ๋ฆฝ์ ์ธ ์ํ์์ ๊ฐ ์ํ์ด ํ๋ฅ p๋ฅผ ๊ฐ์ง ๋์ ์ด์ฐ ํ๋ฅ ๋ถํฌ
$$ y_j | \theta_j \sim Bin(n_j, \theta_j) $$
๊ทธ๋ผ ์๋ก ๋ ๋ฆฝ์ธ ์ฌ๋ฌ ๋ฒ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ป๊ฒ ์ข ํฉํ ์ ์์๊น์?
Option #1 : ๋ชจ๋ ์คํ์ด ๊ณตํต์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋๋ค๊ณ ๊ฐ์
์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ ๋ชจ๋ ์คํ์ ๋ํด ์์ด ๋ฐ๋ณํ ํ๋ฅ ์ ๋์ผํ๋ค๊ณ ๊ฐ์ ํ๋ ๊ฒ ์ ๋๋ค. ์ฆ $\theta_j = \theta$ ๋ผ๊ณ ๊ฐ์ ํฉ๋๋ค.
์ด ๊ฒฝ์ฐ, ๋ชจ๋ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํด์ ์๋์ ๊ฐ์ด ์์ฑํ ์ ์์ต๋๋ค.
$$ y_1 + y_2 + ... + y_{71} | \theta \sim Bin(n_1 + n_2 + ... + n_71, \theta) $$
๋ฌผ๋ก ์ด๋ ๊ฒ ๋จ์ํ๊ฒ ๊ฐ์ ํ ๊ฒฝ์ฐ, ํ๊ณ๊ฐ ๋ช ํํฉ๋๋ค.
- ์ค์ ๋ฐ์ดํฐ์์๋ ์์ด ๋ฐ๋ณํ ๋น์จ์ด ์คํ๋ง๋ค ๋ค๋ฆ. ์ฆ ํ๋ฅ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ๊ฐ ๋ถ์ผ์น
- ์๋ก ๋ค๋ฅธ ์ฌ๋ฌ ์คํ ๊ฐ์ variability๋ฅผ ๋ค๋ฃฐ ์๊ฐ ์์
Option #2 : ๊ฐ ์คํ๋ง๋ค ์๋ก ๋ ๋ฆฝ์ธ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋๋ค๊ณ ๊ฐ์
๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ ๊ฐ ์คํ๋ง๋ค ์๋ก ๋ ๋ฆฝ์ธ ๋ฐ๋ณ ํ๋ฅ ์ ๊ฐ๋๋ค๊ณ ๊ฐ์ ํ๋ ๊ฒ ์ ๋๋ค.
์ด ๊ฒฝ์ฐ ์คํ๋ง๋ค ์์ด ๋ฐ๋ณํ ๋น์จ์ด ๋ค๋ฅด๊ฒ ๋ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ ์๋ ์์ง๋ง, ๋ง์ฐฌ๊ฐ์ง๋ก ํ๊ณ๊ฐ ์์ต๋๋ค.
- ๊ฐ ์คํ์ ๊ตฌ์ฑํ๋ ์ํ ํฌ๊ธฐ๊ฐ ์์ -> ์ฌํ ํ๋ฅ ์ ๋ถ์ฐ์ด ์ปค์ง
- ์๋ก์ด experiment ์ ๋ํ ๋ต์ ํ ์๊ฐ ์์ (๋ชจ๋ ์คํ์ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์)
Option #3 : ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ (Hierarchical modeling)
๋ง์ง๋ง์ Option #1๊ณผ Option #2๋ฅผ ์ ์ถฉํ๋ ์ ์ ๋๋ค.
์ฆ $\theta_1$ ๋ถํฐ $\theta_71$์ ์๋ก ๋ค๋ฅด์ง๋ง, ๊ณตํต์ ์ธ ๋ฌด์ธ๊ฐ๋ฅผ ๊ฐ์ง๊ณ ์์ ๊ฑฐ๋ผ๋ ์์ด๋์ด ์ธ๋ฐ์,
์ด ๊ฒฝ์ฐ $\theta_j$ ๊ฐ ์ด๋ค ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , ํด๋น ๋ถํฌ์์ ๊ฐ ์คํ์ ๊ท์ ํ๋ ํ๋ผ๋ฏธํฐ์ธ $\theta_j$๊ฐ ๋ฝํ๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ ํ๋ฉด ์์ ๊ฐ์ ๋ชจ๋ธ๋ง์ด ๊ฐ๋ฅํ๋ฉฐ,
์ด ๊ฒฝ์ฐ Option #1๊ณผ Option #2์์๋ ์์๋ ์ฅ์ ์ด ์์ต๋๋ค.
- ์ผ๋ฐํ ๊ฐ๋ฅ
- ์๋ก ๋ค๋ฅธ ์ฌ๋ฌ ์คํ ๊ฐ์ variablility๋ฅผ ๋ค๋ฃฐ ์ ์์
- ๋ค๋ฅธ ์คํ ๊ฒฐ๊ณผ๋ฅผ ํ์ฉํ์ฌ ๊ฐ $y_j$ ์ ๋ํ ์์ธก ์ ํ๋๋ฅผ ๋์ผ ์ ์์
๊ทธ๋ผ $\theta_j$ ๊ฐ ๋ฐ๋ฅด๋ ๋ถํฌ๋ ๋ฌด์์ผ๋ก ๊ฐ์ ํ๋ฉด ์ข์๊น์? ๋ฐ๋ก ๋ฒ ํ๋ถํฌ ์ ๋๋ค.
$\theta_j$ ์ ๊ด๋ จ๋ ์ ์ฝ ์กฐ๊ฑด๋ค์ด ์๋๋ฐ, ๋ฒ ํ ๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ฉด ํด๋น ์ ์ฝ ์กฐ๊ฑด๋ค์ ๋ง์กฑ์ํฌ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- $\theta_j$ ๋ ์ดํญ ๋ถํฌ์ ํ๋ฅ ์ ๊ท์ ํ๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ 0์์ 1 ์ฌ์ด ๊ฐ์ ๊ฐ์ ธ์ผ ํจ
- ๋ฒ ํ๋ถํฌ๋ 0์์ 1 ์ฌ์ด ๊ฐ์ ๊ฐ์ง
- ์ดํญ ๋ถํฌ์ ๊ฒฐํฉํ์ฌ ์ฌํ ๋ถํฌ๋ฅผ ์์ธกํ๊ธฐ ์ฌ์ด ๋ถํฌ์ฌ์ผ ํจ
- ๋ฒ ํ๋ถํฌ๋ ์ดํญ ๋ถํฌ์ conjugate prior
* conjugate prior : prior๊ณผ posterior ๊ฐ ๊ฐ์ probability distribution family๋ฅผ ์ด๋ฃจ๊ฒ ํ๋ prior ๋ถํฌ
๋ฐ๋ผ์ ์๋์ ๊ฐ์ ๋ฌธ์ ์ธํ ์ด ๊ฐ๋ฅํ๋ฉฐ,
์ด์ ๊ฐ์ ๋ฌธ์ ์ธํ ์ Hierarchical (=multi-level) model ์ด๋ผ ํฉ๋๋ค.
- Lower level : $y_j | \theta_j \sim Bin(n_j, \theta_j) $
- Higher level : $\theta_j \sim Beta(\alpha, \beta)$
- $\alpha, \beta \sim iid \; Exp(\lambda)$
์ฌ๊ธฐ์ Higher level์ ๊ตฌ์ฑํ๋ ํ๋ผ๋ฏธํฐ์ธ $\alpha$ ์ $\beta$๋ฅผ hyperparameters ๋ผ๊ณ ํ๋ฉฐ,
$\alpha$ ์ $\beta$ ๋ ๋ถํฌ๋ฅผ ๊ฐ์ต๋๋ค. ์ด๋ค์ ์ฌ์ ๋ถํฌ๋ฅผ hyperprior ์ด๋ผ ํฉ๋๋ค.
์ ์์์์๋ $\alpha$ ์ $\beta$๊ฐ ๊ฐ๊ฐ ํ๋ผ๋ฏธํฐ๊ฐ $\lambda$ ์ธ ์ง์๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๊ฒ์ผ๋ก ๊ฐ์ ํ์๋๋ฐ์,
$\alpha$ ์ $\beta$ ์ ๋ํ ์ ๋ณด๊ฐ ์ ํ ์์ผ๋ฏ๋ก too informative ํ ๋ถํฌ๊ฐ ์๋๋ผ๋ฉด ์ฌ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
์ฌํ ๋ถํฌ๊ฐ proper distribution ์ด ๋๋ค๋ ๊ฐ์ ํ์ improper distribution ๋ ์ฌ์ฉ์ด ๊ฐ๋ฅํ ๊ฒฝ์ฐ๊ฐ ์์ผ๋ฉฐ, ์์ ์์์์๋ ์ง์ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ผ๋ฏ๋ก $\lambda$๊ฐ 0์ ๊ฐ๊น์ธ์๋ก ํํํ (not informative) ๋ถํฌ๊ฐ ๋ฉ๋๋ค.
Chapter #2 - 2022 ๋์ ๊ฒฐ๊ณผ ์์ธก
๊ทธ๋ผ ์์์ ์๊ฐํ Bayesian Hierarchical modeling ์ ํ์ฉํ์ฌ 2022๋ 3์ 9์ผ์ ์น๋ฌ์ง ์ 20๋ ๋ํต๋ น ์ ๊ฑฐ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํด ๋ณด๊ฒ ์ต๋๋ค. ์ 20๋ ๋ํต๋ น ์ ๊ฑฐ๋ ๋งํ๊น์ง ์ ์ ์์์ ๋ณด์๊ณ , ์ต์ข ์ ์ผ๋ก 1-2์๊ฐ 0.73%p ๋ํ์จ ์ฐจ์ด๋ก ์ญ๋ ์ต์ ๋ํ์จ ์ฐจ์ด๋ฅผ ๊ธฐ๋กํ ์ ๊ฑฐ ์ ๋๋ค.
* ๋ฐ์ดํฐ ์ถ์ฒ : ์ 20๋ ๋ํต๋ น ์ ๊ฑฐ
1. ๋ถ์ ๊ฐ์
- 2022๋
2์ ๋ง์ง๋ง ์ฃผ, ๊ฐ ์กฐ์ฌ ๊ธฐ๊ด์ ์ฌ๋ก ์กฐ์ฌ ๊ฒฐ๊ณผ
- 2022๋ 2์ ๋ง์ง๋ง ์ฃผ ๊ฒฐ๊ณผ๊ฐ ์๋ ๊ฒฝ์ฐ, 3์ ๊ฒฐ๊ณผ๋ก ๋์ฒด
- ์ง์ง์จ ์์ 4์ ์ด์์ ๋์์ผ๋ก ์ค์๋ ์ฌ๋ก ์กฐ์ฌ
- ์์ธกํ๊ณ ์ ํ๋ ๊ฒ (y) : ๋น์ ์ง์ง์จ top2๋ฅผ ๊ธฐ๋กํ๋ ์ด์ฌ๋ช ํ๋ณด์ ์ค์์ด ํ๋ณด์ ๋ํ์จ ์ฐจ์ด
- ์ฌ์ฉํ ํ๋ก๊ทธ๋๋ฐ ํด : R์ rjags ํจํค์ง
- (์ฐธ๊ณ ) ํ์ด์ฌ์ ๊ฒฝ์ฐ pyjags ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ ์ฌํ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
๋ถ์์ ์ฌ์ฉํ ์ฌ๋ก ์กฐ์ฌ ๋ฐ์ดํฐ๋ ์๋์ ๊ฐ์ต๋๋ค.
์ด์ฌ๋ช ์ง์ง์จ (%) | ์ค์์ด ์ง์ง์จ (%) | ์ค์ฐจ ๋ฒ์ (%) | ์กฐ์ฌ ๊ธฐ๊ด | ์ฃผ์ฐจ |
39.8 | 39.8 | 2.2 | KBS | 22๋ 2์ 2์ฐจ |
39.6 | 41.9 | 3.1 | MBC | 22๋ 2์ 2์ฐจ |
34.1 | 42.4 | 3.1 | JTBC | 22๋ 2์ 2์ฐจ |
34.9 | 36.5 | 3.1 | TV์กฐ์ | 22๋ 2์ 3์ฐจ |
36.4 | 43.3 | 3.1 | ์ฑ๋A | 22๋ 2์ 2์ฐจ |
31.6 | 36.1 | 3.1 | ๋ฅ์คํธ๋ฆฌ์์น | 22๋ 2์ |
37 | 39 | 3.1 | NBS | 22๋ 2์ 4์ฃผ |
38 | 37 | 3.1 | ํ๊ตญ๊ฐค๋ฝ | 22๋ 2์ 4์ฃผ |
38.3 | 39 | 3.1 | ๋จธ๋ํฌ๋ฐ์ด | 22๋ 2์ 4์ฃผ |
40.5 | 41.9 | 2.2 | ๋ฆฌ์ผ๋ฏธํฐ | 22๋ 2์ 4์ฃผ ์ฃผ์ค |
43.8 | 36.1 | 3.1 | KSOI | 22๋ 2์ 4์ฃผ |
39.4 | 40.2 | 3.1 | ์ ๋ธ๋ ์ธ(์ค์์ผ๋ณด) | 22๋ 2์ 2์ฐจ |
40.2 | 42.4 | 3.1 | ์ ๋ธ๋ ์ธ(news1) | 22๋ 2์ 4์ฃผ |
42.5 | 46.5 | 1.5 | PNR(๋ด๋ฐ์ผ๋ฆฌ) | 22๋ 3์ |
41 | 43.8 | 3.1 | PNR(ํ๋ผ์๊ฒฝ์ ) | 22๋ 2์ 4์ฃผ |
42.3 | 45.4 | 1.8 | ์ฌ๋ก ์กฐ์ฌ๊ณต์ | 22๋ 2์ 4์ฃผ |
42 | 44.2 | 2.6 | ๋ฏธ๋์ดํ ๋งํ | 22๋ 2์ 4์ฃผ |
41 | 46 | 3.1 | ๋ฆฌ์์น๋ทฐ | 22๋ 2์ 4์ฃผ |
40.9 | 43.6 | 3.1 | ํ๊ธธ๋ฆฌ์์น | 22๋ 3์ |
42.1 | 43.6 | 3.1 | ์กฐ์์จ์ค์์ด | 22๋ 2์ 3์ฃผ |
42.2 | 43.2 | 3.1 | ๋ฏธ๋์ด๋ฆฌ์์น | 22๋ 2์ 4์ฃผ |
40 | 40.4 | 3.1 | ์๋ํฌ์คํธ | 22๋ 2์ 4์ฃผ |
39.5 | 44 | 3.1 | ์ฝ๋ฆฌ์์ ๋ณด๋ฆฌ์์น | 22๋ 2์ 4์ฃผ |
2. ์๊ฐํ
์ฌ๋ก ์กฐ์ฌ ๊ธฐ๊ด๋ค์ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ํ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
with(d[, c('organization','y', 'ME')],
plot(1:n, y, ylim=c(min(y-ME), max(y+ME)), xaxt="n",
main="์ด์ฌ๋ช
ํ๋ณด ์ง์ง์จ (%) - ์ค์์ด ํ๋ณด ์ง์ง์จ (%)",
xlab="", ylab="์ฐจ์ด"))
with(d[, c('organization','y', 'ME')], segments(1:n, y-ME, 1:n, y+ME))
axis(1, at=1:n, labels=d$organization, las=2)
abline(h=0, lty=2, col="blue")
- KSOI : ์ด์ฌ๋ช ํ๋ณด์ ์ฐ์ธ, ์ค์ฐจ ๋ฒ์ ๋ฐ
- JTBC, ์ฑ๋A, ๋ฆฌ์์น๋ทฐ, ์ ๋ณด๋ฆฌ์์น : ์ค์์ด ํ๋ณด์ ์ฐ์ธ, ์ค์ฐจ ๋ฒ์ ๋ฐ
- ๋๋จธ์ง ์ฌ๋ก ์กฐ์ฌ๋ค์ ์ค์์ด ํ๋ณด์ ์ฐ์ธ๊ฐ ๋ง์์ผ๋ ์ค์ฐจ ๋ฒ์ ์
y = "์ด์ฌ๋ช ํ๋ณด ์ง์ง์จ - ์ค์์ด ํ๋ณด ์ง์ง์จ" ์ ํ๊ท ๊ฐ์ -2.139 ์ ๋๋ค.
3. ๋ฌธ์ ์ธํ
- $y_j$ : ์ด์ฌ๋ช
ํ๋ณด๊ฐ ์ค์์ด ํ๋ณด๋ฅผ ์ง์ง์จ์์ ๋ช%p ์์๋์ง
- "์ด์ฌ๋ช ํ๋ณด ์ง์ง์จ - ์ค์์ด ํ๋ณด ์ง์ง์จ"
- j = 1,2, ... , 23
- ์๋ก ๋ค๋ฅธ ์ฌ๋ก ์กฐ์ฌ ๋ผ๋ฆฌ๋ ์๋ก ๋ ๋ฆฝ์ด๋ค.
- $\sigma_j$ : margin of error (์ค์ฐจ ๋ฒ์) ์ 1/2
- $\sigma_j$ ๋ ๊ณ ์ ๋ ๊ฐ์ด๊ณ , ์๊ณ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
- ๋ฌผ๋ก $\sigma_j$ ์ ๋ํด์๋ prior distribution์ ์ ์ฉํ ์๋ ์์ต๋๋ค.
- $y_j$ ๊ฐ์ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ์์ต๋๋ค.
- $y_j$ ๊ฐ์ ํ๊ท ์ธ $\theta_j$ ๋ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ์์ต๋๋ค.
- $\theta_j$ ์ ๋ถํฌ๋ฅผ ๊ท์ ํ๋ $\mu$ ์ $\tau$ ์ ๋ํด์๋ ์ ๋ณด๊ฐ ์ ํ ์์ผ๋ฏ๋ก, ์ต๋ํ non-informative prior์ ๊ฐ๊น์ด ๋ถํฌ๋ฅผ ์ฌ์ฉ ํ์์ต๋๋ค. (๋ฒ์๊ฐ ๋์ ๊ท ์ผ๋ถํฌ)
- Lower level : $y_j | \theta_j \sim N(\theta_j, \sigma_j^2) $
- Higher level : $\theta_j | \mu, \tau \sim N(\mu, \tau^2)$
- $\mu \sim flat \; on \; (-\infty, \infty) \doteq U(-1000, 1000)$
- $\tau \sim flat \; on \; (0, \infty) \doteq U(0, 1000)$
4. ๋ฌธ์ ํ์ด
Gibbs sampler๋ฅผ ํ์ฉํ์ฌ ๋ถํฌ๋ฅผ ๋ง์กฑํ๋ ์ํ์ ์์ฑํด ๋ด ์๋ค.
์ฐ์ rjags ํจํค์ง์์ ํ์ฉํ ์ ์๋๋ก ์์ ๋ฌธ์ ์ธํ ์ ์ฝ๋๋ก ๊ตฌํํด ์ค๋๋ค.
model {
for (j in 1:length(y)) {
y[j] ~ dnorm(theta[j], 1/sigma[j]^2)
theta[j] ~ dnorm(mu, 1/tau^2)
}
mu ~ dunif(-1000,1000)
tau ~ dunif(0,1000)
}
์ ์ฝ๋๋ฅผ polls2022_korean.bug ํ์ผ๋ก ์ ์ฅํฉ๋๋ค.
library(rjags)
initial.vals <- list(
list(mu=100, tau=0.01),
list(mu=-100, tau=0.01),
list(mu=100, tau=100),
list(mu=-100, tau=100)
)
m1 <- jags.model("polls2022_korean.bug", d, initial.vals, n.chains=4)
# burn-in for 2,500
update(m1, 2500)
x1 <- coda.samples(m1, c("mu", "tau"), n.iter=5000)
rjags ํจํค์ง๋ฅผ ๋ถ๋ฌ ์ค๊ณ , $\mu$์ $\tau$์ ์ด๊น๊ฐ์ ์ก์ ์ค๋๋ค.
์ํ ์ถ์ถ์ ์ํ chain์ 4๊ฐ๋ฅผ ์ฌ์ฉ ํ๊ฒ ์ต๋๋ค.
mixing์ด ์ ๋๋๋ก ํ๊ธฐ ์ํด ์ต์ด ์ํ 2500๊ฐ๋ burn-in ํด ์ค๋๋ค.
์ฌ๋ก ์กฐ์ฌ๋ค์ ๋ถํฌ๋ฅผ ์ ์ํ๋ ํ๊ท $\mu$ ์ ํ์คํธ์ฐจ์ธ $\tau$ ๊ฐ ๊ฐ์ฅ ์ค์ํ ๊ฐ์ด๊ธฐ ๋๋ฌธ์,
์ ๋ถํฌ ์ ์์ ๋ง๊ฒ ๋ฝ์ $\mu$, $\tau$ ์ํ์ ๊ฐ๊ฐ 5์ฒ๊ฐ*4 = 2๋ง๊ฐ์ฉ ์ ์ฅํฉ๋๋ค.
traceplot ๊ณผ $\mu$, $\tau$ ์ ๋ถํฌ๋ฅผ ๊ทธ๋ ค ๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
summary(x1)
Iterations = 3501:8500
Thinning interval = 1
Number of chains = 4
Sample size per chain = 5000
1. Empirical mean and standard deviation for each variable,
plus standard error of the mean:
Mean SD Naive SE Time-series SE
mu -2.153 0.6695 0.004734 0.007539
tau 2.780 0.5847 0.004134 0.008289
2. Quantiles for each variable:
2.5% 25% 50% 75% 97.5%
mu -3.497 -2.582 -2.147 -1.717 -0.8376
tau 1.793 2.366 2.726 3.126 4.1035
์ฐธ๊ณ ๋ก Iterations ๊ฐ 3501 ๋ถํฐ ์์ํ๋ ์ด์ ๋,
์๊น 2500๊ฐ burn-in ์ ์ด์ด์ auto-correlation์ ์ค์ด๊ธฐ ์ํ adaptation ๊ณผ์ ์ด ๊ธฐ๋ณธ ์ต์ ์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ ๋๋ค.
adaptation ๊ณผ์ ์์ 1000๊ฐ sample์ด ์ถ๊ฐ์ ์ผ๋ก ๋ฒ๋ ค์ง๋๋ค.
$\mu$ ๊ฐ์ ํ๊ท ์ -2.153, ์ค๊ฐ๊ฐ์ -2.147 ์ ๋๋ค.
์ด๋ ์ต์ด ์ฌ๋ก ์กฐ์ฌ ๊ธฐ๊ด๋ค์ "์ด์ฌ๋ช ์ง์ง์จ - ์ค์์ด ์ง์ง์จ" ์ ํ๊ท ์ด -2.139 ์๋ ๊ฒ๊ณผ ์ผ๋งฅ์ํตํ๋ ๊ฒฐ๊ณผ์ ๋๋ค.
ํ๊ท ์ ๋ณด๋ฉด ์ค์์ด ํ๋ณด๊ฐ ์ฐ์ธํ ํ๋ฅ ์ด ๊ฐ๋ฅ์ฑ์ด ๋์ง๋ง, $\tau$ ๊ฐ์ด ๊ฝค ํฌ๊ธฐ ๋๋ฌธ์ ์ค์ ๊ฒฐ๊ณผ๋ ๋ณ๋์ฑ์ด ํด ๊ฒ์ผ๋ก ์์ธก์ด ๋ฉ๋๋ค.
$\mu$์ 95% ์ฌํ ํ๋ฅ ๊ตฌ๊ฐ์ -3.497 ~ -0.8376 ์ ๋๋ค.
์ด์ ๋ฝ์ 2๋ง๊ฐ $\mu$, $\tau$ ๊ฐ๋ค์ ๊ฐ์ง๊ณ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํด ๋ณด๊ฒ ์ต๋๋ค.
post <- as.matrix(x1)
Nsim <- dim(post)[1]
ys <- vector(length=Nsim)
for (s in 1:Nsim){
now_mu <- post[s, 1]
now_tau <- post[s, 2]
now_theta <- rnorm(1, now_mu, now_tau)
now_y <- rnorm(1, now_theta, 1/2*(3.1)) # ๊ฐ ์ฌ๋ก ์กฐ์ฌ ๊ธฐ๊ด์ ์ค์ฐจ๋ฒ์๋ 3.1%๋ก ๊ฐ์
ys[s] <- now_y
}
# ์ด์ฌ๋ช
ํ๋ณด ๋น์ ํ๋ฅ
> print(sum(ys > 0) / length(ys))
[1] 0.25025
# ์ค์์ด ํ๋ณด ๋น์ ํ๋ฅ
> print(sum(ys < 0) / length(ys))
[1] 0.74975
์ด์ฌ๋ช
ํ๋ณด์ ๋น์ ํ๋ฅ ์ ์ฝ 0.25 (25%), ์ค์์ด ํ๋ณด์ ๋น์ ํ๋ฅ ์ ์ฝ 0.75 (75%) ์
๋๋ค.
Summary
์ด๋ฒ ํฌ์คํ ์์๋ Bayesian Hierarchical modeling ์ ๋ํด ์์ ๋ณด์๊ณ , ์์๋ก ์ 20๋ ๋ํต๋ น์ ๊ฑฐ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํด ๋ณด์์ต๋๋ค.
Bayesian Hierarchical modeling์ ์คํ์ด๋ ์ฌ๋ก ์กฐ์ฌ์ ๊ฐ์, ์๋ก ๋ค๋ฅธ ์ง๋จ์ ๋ํด ์ฌ๋ฌ ์ฐจ๋ก ์งํ๋ ์กฐ์ฌ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ ๋ ์ ์ฉํ ๋๊ตฌ์ ๋๋ค. ์ฌ๋ฌ ์กฐ์ฌ๋ค์ ํ๊ท ๋ง ๊ตฌ๋งค ๋ณด๋ ๊ฒ ๋ณด๋ค ํจ์ฌ ํ๋ถํ ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ผ์ค ์ ์์ผ๋, ๊ด์ฌ ๋ถ์ผ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ง์ ๋ถ์์ ์ํํด ๋ณด์ ๋ ์ข๊ฒ ์ต๋๋ค.
์๋ชป๋ ๋ด์ฉ์ ๋ํ ์ง์ ์ด๋ ๋ฌธ์์ฌํญ์ ํธํ๊ฒ ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์ธ์! ์ฝ์ด ์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค.

References
[1] Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A., & Rubin, D.B. (2013). Bayesian Data Analysis (3rd ed.). Chapman and Hall/CRC. https://doi.org/10.1201/b16018
Bayesian Data Analysis | Andrew Gelman, John B. Carlin, Hal S. Stern,
Winner of the 2016 De Groot Prize from the International Society for Bayesian AnalysisNow in its third edition, this classic book is widely considered the
www.taylorfrancis.com
[2] Park, Trevor H. “Hierarchical modeling fundementals”, Advanced Bayesian Modeling, 2022 spring, University of Illinois Urbana Champaign, Lecture.
[3] ์ 20๋ ๋ํต๋ น ์ ๊ฑฐ (๋๋ฌด์ํค)