階層ベイズモデル

階層ベイズモデル（かいそうべいずもでる、Bayesian hierarchical modeling）は、複数のレベルで記述された、階層形式の統計モデルであり、ベイズ推定を用いて事後分布のパラメータを推定する^[1]。サブモデルを組み合わせて階層的なモデルを形成し、ベイズの定理を用いて観測データと統合して、全ての不確実性を考慮した事後分布を得る。

ベイズ統計ではパラメータを確率変数として扱い、主観的な情報に基づき、これらのパラメータの分布を仮定する。このため、頻度論的統計ではベイズ統計とは一見矛楯した結論が得られることがある^[2]。設定する問い自体が異なるため厳密に言えば矛楯するものではないが、どちらの答えを重要視するかに違いがある。ベイジアンは、意思決定と信念の更新についての関連情報を無視することはできないこと、対象者から複数の観察データが得られる場合には階層モデリングが古典的な方法を覆す可能性があることを主張する。さらに、このモデルはロバストであることが証明されており、事後分布は、より柔軟な階層的事前分布にはあまり影響されない。

階層モデリングは、複数の異なるレベルの観測単位で情報が得られる場合に使用する。例えば、複数の国の感染経路を記述する疫学モデルでは、観測単位は国であり、国毎に日々の感染者の経時的データが異なる^[3]。複数の油田やガス田の産出量の減衰曲線を説明する減衰曲線分析では、観測単位は貯蔵地域の油田またはガス田であり、それぞれに生産率経時的データがある（通常、バレル/月） ^[4]。階層モデリングのデータ構造は入れ子状である。階層的な分析・統合は、パラメータがたくさんある問題を理解するのに役立つだけでなく、計算戦略の策定にも重要な役割を果たす^[5]。

基本原理

統計的手法とモデルは、一般に、問題がこれらのパラメータの同時確率モデルの依存性を暗示するような方法で関連または接続されていると見なすことができる複数のパラメータを含む^[6]。確率の形で表される個々の信念の程度には、不確実性が伴う^[7]。その中で、時間の経過とともに信念の度合いが変化する。ホセ・M・ベルナルド教授とエイドリアン・F・スミス教授が述べたように、「学習プロセスの現実は、現実についての個人的および主観的な信念の進化にある」。これらの主観的な確率は、物理的な確率よりも精神に直接関係している。したがって、ベイジアンが特定のイベントの事前発生を考慮に入れた代替の統計モデルを策定したのは、この信念を更新する必要があるためである^[8]。

ベイズの定理

現実世界で事象が発生した場合、通常、ある選択肢における選好が修正される。これは、選択肢を定義する事象に対して個人が抱く信念の度合いを修正することで行われる^[9]。

心臓治療の効果を調べる研究で、病院 $j$ の患者の生存確率を $\theta _{j}$ とする。生存確率 $\theta _{j}$ は、心臓病患者の生存率を高めると信じる人がいる事象 $y$ の発生で更新される。

イベント $y$ が発生した状況で、 $\theta _{j}$ について確率の記述を更新するには、 $\theta _{j}$ と $y$ の同時分布 $P(\theta ,\,y)$ を与えるモデルから始めなければならない。これは、事前分布 $P(\theta )$ とサンプリング分布 $P(y\mid \theta )$ の積として記述することができる。

P(\theta ,y)=P(\theta )P(y\mid \theta )

条件付き確率の基本性質から、事後分布は次のようになる。

P(\theta \mid y)={\frac {P(\theta ,\,y)}{P(y)}}={\frac {P(y\mid \theta )\,P(\theta )}{P(y)}}

この条件付き確率と個々の事象との関係を示す式をベイズの定理という。この単純な表現の中に、更新された信念 $P(\theta \mid y)$ を適切かつ解決可能な方法で組み込むことを目的とするベイズ推定の技術的核心が含まれている^[9]。

交換可能性

統計分析は、通常、 $n$ 個の値 $y_{1},y_{2},\ldots ,y_{n}$ が交換可能であることを仮定することから始める。 $\theta _{j}$ を他と区別する情報がデータ $y$ しかなく、パラメータの順序付けやグループ化ができない場合、事前分布においてパラメータ間の対称性を仮定する必要がある^[10]。この対称性は、確率的には、交換可能性で表される。一般的に、分布 $P(\theta )$ に従うパラメーターベクトル $\theta$ が与えられたとき、独立同分布としてモデル化することが有用かつ適切である。

有限の交換可能性

定数 n に対して、集合 $y_{1},y_{2},\ldots ,y_{n}$ が交換可能であるとは、同時確率 $P(y_{1},y_{2},\ldots ,y_{n})$ が添え字の順列によらず不変であることをいう。つまり、 $1,2,\ldots ,n$ を並び替えて得られるすべての順列 $\pi \,(\pi _{1},\pi _{2},\ldots ,\pi _{n})$ に対して次の式が成立する^[11]。

$P(y_{1},y_{2},\ldots ,y_{n})=P(y_{\pi _{1}},y_{\pi _{2}},\ldots ,y_{\pi _{n}}).$

$x_{1},\ldots ,x_{n}$ が独立同分布ならば交換可能だが、交換可能であっても独立同分布であるとは限らない^[12]。次に、交換可能だが独立同分布ではない例を示す。

壺の中に赤い玉 1 個と青い玉 1 個があり、二分の一の確率でどちらかを取り出すものとする。n 個の中から玉を 1 個取り出して、引いた玉は戻さずに、n - 1 個の中から次の玉を取り出す。

Y_{i}={\begin{cases}1,&{\text{if the }}i{\text{th ball is red}},\\0,&{\text{otherwise}}.\end{cases}}

最初に赤い玉、2 番目に青い玉を取り出す確率も、最初に青い玉、2 番目に赤い玉を取り出す確率も、同じく二分の一であり、 $y_{1}$ と $y_{2}$ とは交換可能である。

$P(y_{1}=1,\,y_{2}=0)=P(y_{1}=0,\,y_{2}=1)={\frac {1}{2}}$

しかし、最初に赤い玉を取り出した後で 2 番目に赤い玉を取り出す確率は 0 であり、2 回目に赤い玉を取り出す確率とは等しくない。 $P(y_{2}=1\mid y_{1}=1)=0\neq P(y_{2}=1)={\frac {1}{2}}$

無限の交換可能性

無限の交換可能性とは、無限数列 $y_{1},y_{2},\ldots$ のすべての有限な部分集合が交換可能である、という性質である。つまり、任意の $n$ について、数列 $y_{1},y_{2},\ldots ,y_{n}$ 交換可能である^[12]。

階層モデル

構成要素

階層ベイズモデルでは、以下の 2 つの重要な概念を利用して事後分布を導出する^[1]。

ハイパーパラメータ Hyperparameter：事前分布のパラメータ
超事前分布 Hyper prior：ハイパーパラメータの分布

確率変数 $Y$ が、平均 $\theta$ 、分散 1 の正規分布に従うと仮定する。このことを、チルダを用いて下記のように表記する。

Y\mid \theta \sim N(\theta ,1)

さらに、パラメータ $\theta$ が平均 $\mu$ 、分散 1 の正規分布に従うと仮定する。

\theta \mid \mu \sim N(\mu ,1)

そして、ハイパーパラメータ $\mu$ が標準正規分布に従うものとする。

\mu \sim N(0,1)

このようなハイパーパラメータが従う分布を、超事前分布と呼ぶ。 $Y$ の分布の表記は、別のパラメータを追加することで変化する。

Y\mid \theta ,\mu \sim N(\theta ,1)

ハイパーパラメータ $\mu$ が平均 $\beta$ 分散 $\epsilon$ の正規分布に従う場合、 $\beta$ と $\epsilon$ もまたハイパーパラメータであり、その分布も超事前分布となる^[6]。

\mu \sim N(\beta ,\epsilon )

枠組み

$y_{j}$ を観測値、 $\theta _{j}$ を $y_{j}$ のデータ生成過程を支配するパラメータとする。さらに、パラメータ $\theta _{1},\theta _{2},\ldots ,\theta _{j}$ が交換可能な形で共通母集団から生成され、その分布がハイパーパラメータ $\phi$ によって規定されるものとする。階層ベイズモデルには、次の段階が含まれる。

Stage I: $y_{j}\mid \theta _{j},\phi \sim P(y_{j}\mid \theta _{j},\,\phi )$
Stage II: $\theta _{j}\mid \phi \sim P(\theta _{j}\mid \phi )$
Stage III: $\phi \sim P(\phi )$

尤度 $P(y_{j}\mid \theta _{j},\phi )$ は $\theta _{j},\phi$ に依存するが、 $\phi$ は $\theta _{j}$ を通してのみ尤度に影響する。

条件付き確率の定義から、 $\theta _{j},\phi$ の事前分布 $P(\theta _{j},\phi )$ は、超事前分布 $P(\phi )$ を用いて、次のように分解できる。

P(\theta _{j},\,\phi )=P(\theta _{j}\mid \phi )\,P(\phi )

ベイズの定理から、 $\theta _{j},\phi$ の事後分布　 $P(\phi ,\,\theta _{j}\mid y)$ は次のように比例する^[13]。

P(\phi ,\,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j},\,\phi )\,P(\theta _{j},\,\phi )

以上から、

P(\phi ,\,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j})\,P(\theta _{j}\mid \phi )\,P(\phi )

例

このことをさらに説明するために、次のような例を考えてみる。ある教師が、生徒の SAT での成績を推定したいものとする。教師は、生徒の高校の成績と現在の GPA（評点平均）に関する情報を使って、推定値を算出する。生徒の現在の GPA を $Y$ 、SAT の成績を $\theta$ として、次のように表される。

Y\mid \theta \sim P(Y\mid \theta )

SAT の成績は、学年 $\phi$ でインデックスされた共通の母集団分布からのサンプルとみなされる^[14]。

\theta \mid \phi \sim P(\theta \mid \phi )

さらに、ハイパーパラメータ $\phi$ は超事前分布 $P(\phi )$ が与える分布に従う。 GPAに関する情報に基づいて SAT を予測するには、

P(\theta ,\,\phi \mid Y)\propto P(Y\mid \theta ,\,\phi )\,P(\theta ,\,\phi )

P(\theta ,\,\phi \mid Y)\propto P(Y\mid \theta )\,P(\theta \mid \phi )\,P(\phi )

問題のすべての情報が事後分布を解くために使用される。事前分布と尤度関数だけを使って解くのではなく、超事前分布を使うことで、より多くの情報を得て、パラメータの振る舞いについてより正確な信念を持つことができる^[15]。

2段階の階層モデル

一般に、2段階の階層モデルで関心のある共同事後分布は次の通り。

P(\theta ,\phi \mid Y)={P(Y\mid \theta ,\phi )P(\theta ,\phi ) \over P(Y)}={P(Y\mid \theta )P(\theta \mid \phi )P(\phi ) \over P(Y)}

P(\theta ,\,\phi \mid Y)\propto P(Y\mid \theta )\,P(\theta \mid \phi )\,P(\phi )

3段階の階層モデル

3段階の階層モデルの場合、事後分布は次の式で与えられる^[15]。

P(\theta ,\,\phi ,\,X\mid Y)={\frac {P(Y\mid \theta )\,P(\theta \mid \phi )\,P(\phi \mid X)\,P(X)}{P(Y)}}

P(\theta ,\,\phi ,\,X\mid Y)\propto P(Y\mid \theta )\,P(\theta \mid \phi )\,P(\phi \mid X)\,P(X)

脚注

[脚注の使い方]

出典

^ ^a ^b Allenby, Rossi, McCulloch (January 2005). "Hierarchical Bayes Model: A Practitioner’s Guide". Journal of Bayesian Applications in Marketing, pp. 1–4. Retrieved 26 April 2014, p. 3
^ Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis (second ed.). Boca Raton, Florida: CRC Press. pp. 4–5. ISBN 1-58488-388-X
^ Lee, Se Yoon; Lei, Bowen; Mallick, Bani (2020). “Estimation of COVID-19 spread curves integrating global data and borrowing information”. PLOS ONE 15 (7): e0236860. doi:10.1371/journal.pone.0236860. PMC 7390340. PMID 32726361. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7390340/.
^ Lee, Se Yoon; Mallick, Bani (2021). “Bayesian Hierarchical Modeling: Application Towards Production Results in the Eagle Ford Shale of South Texas”. Sankhya B. doi:10.1007/s13571-020-00245-8.
^ Gelman et al. 2004, p. 6.
^ ^a ^b Gelman et al. 2004, p. 117.
^ Good, I.J. (1980). “Some history of the hierarchical Bayesian methodology”. Trabajos de Estadistica y de Investigacion Operativa 31: 489–519. doi:10.1007/BF02888365. http://dialnet.unirioja.es/servlet/oaiart?codigo=2368428.
^ Bernardo, Smith(1994). Bayesian Theory. Chichester, England: John Wiley & Sons, ISBN 0-471-92416-4, p. 23
^ ^a ^b Gelman et al. 2004, pp. 6–8.
^ Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting”. Bayesian Statistics 2. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 167–168
^ Gelman et al. 2004, pp. 121–125.
^ ^a ^b Diaconis, Freedman (1980). “Finite exchangeable sequences”. Annals of Probability, pp. 745–747
^ Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting”. Bayesian Statistics 2. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 371–372
^ Gelman et al. 2004, pp. 120–121.
^ ^a ^b Box G. E. P., Tiao G. C. (1965). "Multiparameter problem from a bayesian point of view". Multiparameter Problems From A Bayesian Point of View Volume 36 Number 5. New York City: John Wiley & Sons, ISBN 0-471-57428-7