KL情報量とモデル推定:

KL情報量

確率分布pとパラメタθによって記述されるモデルqがどの位違っているかを表すための尺度としてKL (Kullback-Leibler) 情報量がしばしば用いられます.ここである分布pが与えられた状況でθを動かすことを考えると,上の式よりKL情報量は「定数項」-「対数尤度に対応する項」という形で解釈することができます.つまりこの場合KL情報量を最小化にするθを探すということは一般的な「最尤推定」を行うのと等価になります.

KL情報量

ここである具体的な分布が空間上の一点に対応するような確率分布空間を考えます.例えば実際に観測されたデータの分布p~が次のような空間上の一点に対応すると考えます.すると,例えばθを連続的に動かすことで表現されるモデルは,図中の黄色で表されるような空間の部分集合(モデル多様体)として解釈できます.前述の説明と対応させると,モデル多様体の中でKL情報量の意味で最もデータの分布に近い点を探すというのがいわゆる最尤推定と考えることができます.また,実際にはデータの分布しか知ることができませんが,仮に「真の分布」pがあるとすると,それは恐らく完全に実際のデータの分布と重なることは無く,多少離れた部分に対応しているであろうことも想像できます.

最尤推定

混合モデルとその推定

さて,具体的な対象としては次のような混合モデルを扱っています.この混合モデルは独立性などの制約を入れた単純なモデルを要素として複数用意し,それらの線形和を考えたもので,

という柔軟な性質を持っています.

最尤推定

なお,独立モデルのこのような線形和は,ある隠れ変数(潜在変数とも言います)Lが与えられた時に各変数間が独立だということを示しているため,未観測の変数Lを導入した次のようなグラフ構造に対応することになります.これはAとBの間の同時確率P(A,B)が,P(L)P(A|L)P(B|L)のLを周辺化したもので表現できるということを表しています.

潜在クラスモデル

ここで前述の確率分布空間上での絵と対応させて考えてみると,混合モデル多様体(黄色)は,ぐにゃりと「曲がった」要素モデル多様体上の数点の間を「まっすぐ」結んだ面上の一点として直感的には解釈することができます.ここで「曲がった」「まっすぐ」という表現を使いましたが,これは点の間の距離を測るのに用いているKL情報量の性質から導き出されます.

最尤推定

このような混合モデルを推定するためには,「混合モデル多様体(平面)を決定する要素モデル上の点の選択」,そして「混合モデル多様体上でデータ分布に一番近い点の選択」が必要となります.このような推定を反復的に行う方法としてEMアルゴリズムがしばしば用いられます.データが複数の要素モデルのうちどれかから生成されたと考えてこれを隠れ変数で表現すると,EMアルゴリズムは隠れ変数を導入した確率分布空間上で次のように反復的な推定を行っていると捉えることができます.

emアルゴリズム1

また,その結果として(隠れ変数を導入しない)元の確率分布空間ではモデル多様体上の点をEMアルゴリズムによる反復を行うことで次第にデータ分布に近づいていきます.

emアルゴリズム2

このようにモデルの推定はKL情報量を用いることによって幾何的に解釈することができます.


Back to research index page
Back to top page
e-mail:y.fujimoto at aoni.waseda.jp
2012/04/13