機械学習メモ

機械学習メモ

This project is maintained by kino-3

Kullback-Leibler divergence の非負性

カルバック・ライブラー情報量の定義

確率密度関数 p(x),q(x) について, 次のように定義される。

KL(pq)=p(x)ln{q(x)p(x)}dx

補題 (Jensenの不等式)

f(x) を上に凸な関数, g(x) を任意の関数, α1,,αni=1nαi=1 を満たす正の実数とするとき, n によらず次の不等式が成立する。

f(i=1nαig(xi))i=1nαif(g(xi))

証明

数学的帰納法を用いて与式を証明する。

α1=1 より, 両辺ともに f(g(x1)) となるため与式は成立する。

このとき, i=1Nβi=1 を満たす βi について次式が成立する。

i=1Nβif(g(xi))f(i=1Nβig(xi))

よって, βi=αii=1Nαi とおくと, 以下のように n=N+1 のときも与式が成立する。ただし, ()f が上に凸であることを利用した。

i=1N+1αif(g(xi))=i=1Nαif(g(xi))+αN+1f(g(xN+1))=(i=1Nαi)i=1Nβif(g(xi))+αN+1f(g(xN+1))(i=1Nαi)f(i=1Nβig(xi))+αN+1f(g(xN+1))f((i=1Nαi)(i=1Nβig(xi))+αN+1(g(xN+1)))()=f(i=1Nαig(xi)+αN+1(g(xN+1)))=f(i=1N+1αig(xi))

p(x),q(x) によらず KL(pq)0 となることの証明

補題より, αi=p(xi)Δx として, 区分求積法の考え方を適用すると,

f(p(x)g(x)dx)p(x)f(g(x))dx

となる。ここで, f(x)=lnx,g(x)=q(x)p(x) の場合を考えると, 以下のように示される。

f(p(x)g(x)dx)p(x)f(g(x))dxln(q(x)dx)p(x)ln{q(x)p(x)}dxln1p(x)ln{q(x)p(x)}dx0KL(pq)

等号が成立するのは, 補題の () より g(x)=const となる場合である。これは, g(x)=q(x)p(x)p(x)dx=q(x)dx=1 より, g(x)=1 のとき, すなわち p(x)=q(x) のときである。