blueblog

宇宙一統計ができない農学系M1の勉強用ブログ

PRML悪戦苦闘(演習問題 2.1)

夏休みの自主課題としてPRMLの演習問題を解いています。間違いがあったらご指摘下さい。

いきなり2章からスタートします。数式の練習も兼ねてやや過剰に詳しく書きます。

2.1

問題文

(1)~(3)
ベルヌーイ分布
{ \displaystyle
Bern(x|\mu)=\mu^x(1-\mu)^{1-x}
}
が次の性質を満たすことを確かめよ
(1)正規化
{ \displaystyle
\sum_{x=0}^{1}p(x|\mu)=1\\
}
(2)期待値
{ \displaystyle
{\bf E}[x]=\mu\\
}
(3)分散
{ \displaystyle
var[x]=\mu(1-\mu)\\
}

(4)エントロピー
ベルヌーイ分布に従う二値確率変数xエントロピー H[x]
{ \displaystyle
H[x]=-\mu \ln \mu - (1-\mu)\ln(1-\mu)
}
で与えられることを示せ。

(1)正規化

ベルヌーイ分布において確率変数は2値をとります。(例:コインの裏表。x=0なら裏、x=1なら表)
ここでx=1となる確率p(x=1|\mu)\muとします。
今考えているのは二値確率なので、x=0となる確率p(x=0|\mu)はこの余事象 1-\muで表せます。
したがって、
{ \displaystyle
\begin{eqnarray*}
\sum_{x=0}^{1}p(x|\mu)&=&p(x=0|\mu)+p(x=1|\mu)\\
&=&(1-\mu)+\mu=1
\end{eqnarray*}
}
と示せます。

(2)期待値

離散確率分布の期待値の定義から、
{\displaystyle
{\bf E}[x]=\sum(実現値)*(その実現値となる確率)=\sum x_i*p(x=x_i)
}
となります。

あとは実現値を xとして、上式の確率のところにベルヌーイ分布の式を代入すれば良いです。
{ \displaystyle
\begin{eqnarray*}
{\bf E}[x]&=&\sum_{x=0}^{1}x*\mu^x (1-\mu)^{1-x}\\
&=&0*\mu^0 (1-\mu)^1+1*\mu^1 (1-\mu)^0=\mu
\end{eqnarray*}
}
と示せます。

(3)分散

分散の定義から、
{\displaystyle
var[x]={\bf E}[(x-{\bf E}[x])^2 ]={\bf E}[x^2]-{\bf E}[x]^2
}
となります。(この式の導出は演習1.5で扱いました。そのうちまとめます)
{\displaystyle
\begin{eqnarray*}
{\bf E}[x^2]&=&\sum_{x=0}^{1}x^2*\mu^x (1-\mu)^{1-x}\\
&=&0^2*\mu^0 (1-\mu)^1+1^2*\mu^1 (1-\mu)^0=\mu
\end{eqnarray*}
}
{\displaystyle
{\bf E}[x]^2=\mu^2
}
したがって、
{\displaystyle
{\bf E}[x^2]-{\bf E}[x]^2=\mu-\mu^2=\mu(1-\mu)
}
と示せます。

(4)エントロピー

エントロピー(平均情報量)の式は
{\displaystyle
H[x]=-\sum_x p(x)\ln p(x)
}
で与えられます。どうしてこうなるのかは演習1.28で示しました。(そのうち……まとめます)
この式に素直に代入すると、
{\displaystyle
\begin{eqnarray*}
H[p]&=&-\sum_x p(x)\ln p(x)\\
&=&-\sum_{x=0} ^1 p(x|\mu)\ln p(x|\mu)\\
&=&-\mu^0 (1-\mu)^1 \ln{\mu^0 (1-\mu)^1}-\mu^1 (1-\mu)^0 \ln{\mu^1 (1-\mu)^0}\\
&=&-(1-\mu)\ln(1-\mu)-\mu\ ln \mu
\end{eqnarray*}
}
と示せます。

エントロピーは、分布の持つ情報量の大きさを表す尺度ですが、個人的には「分布を用いた予測の難しさを表す尺度」と言い換えた方がしっくりきました。
例えば表裏が均等に出るフェアなコイン(エントロピーが最大)と、表が99%の確率で出るイカサマコイン(情報エントロピーが小さい)を比べると、次に出る目の予測は前者の方がずっと難しいです。後者はとりあえず表と言っておけばほぼ的中します。
(4)式を用いて具体的に計算すると、
フェアなコインのエントロピー\mu=0.5を代入して0.693
イカサマコインのエントロピー\mu=0.99を代入して0.0560 となります

また、前者は一様分布であり後者は極端に尖った分布ですから、平らな分布ほどエントロピーが大きいということも直感的に理解できます。
このあたりのことは
情報って何だろう?
がとても参考になりました。