PRML悪戦苦闘(演習問題 2.1)

夏休みの自主課題としてPRMLの演習問題を解いています。間違いがあったらご指摘下さい。

いきなり2章からスタートします。数式の練習も兼ねてやや過剰に詳しく書きます。

2.1

問題文

(1)~(3)
ベルヌーイ分布
${ \displaystyle Bern(x|\mu)=\mu^x(1-\mu)^{1-x} }$
が次の性質を満たすことを確かめよ
(1)正規化
${ \displaystyle \sum_{x=0}^{1}p(x|\mu)=1\\ }$
(2)期待値
${ \displaystyle {\bf E}[x]=\mu\\ }$
(3)分散
${ \displaystyle var[x]=\mu(1-\mu)\\ }$

(4)エントロピー
ベルヌーイ分布に従う二値確率変数 $x$ のエントロピー $H[x]$ が
${ \displaystyle H[x]=-\mu \ln \mu - (1-\mu)\ln(1-\mu) }$
で与えられることを示せ。

(1)正規化

ベルヌーイ分布において確率変数は2値をとります。(例:コインの裏表。 $x=0$ なら裏、 $x=1$ なら表)
ここで $x=1$ となる確率 $p(x=1|\mu)$ を $\mu$ とします。
今考えているのは二値確率なので、 $x=0$ となる確率 $p(x=0|\mu)$ はこの余事象 $1-\mu$ で表せます。
したがって、
${ \displaystyle \begin{eqnarray*} \sum_{x=0}^{1}p(x|\mu)&=&p(x=0|\mu)+p(x=1|\mu)\\ &=&(1-\mu)+\mu=1 \end{eqnarray*} }$
と示せます。

(2)期待値

離散確率分布の期待値の定義から、
${\displaystyle {\bf E}[x]=\sum(実現値)*(その実現値となる確率)=\sum x_i*p(x=x_i) }$
となります。

あとは実現値を $x$ として、上式の確率のところにベルヌーイ分布の式を代入すれば良いです。
${ \displaystyle \begin{eqnarray*} {\bf E}[x]&=&\sum_{x=0}^{1}x*\mu^x (1-\mu)^{1-x}\\ &=&0*\mu^0 (1-\mu)^1+1*\mu^1 (1-\mu)^0=\mu \end{eqnarray*} }$
と示せます。

(3)分散

分散の定義から、
${\displaystyle var[x]={\bf E}[(x-{\bf E}[x])^2 ]={\bf E}[x^2]-{\bf E}[x]^2 }$
となります。(この式の導出は演習1.5で扱いました。そのうちまとめます)
${\displaystyle \begin{eqnarray*} {\bf E}[x^2]&=&\sum_{x=0}^{1}x^2*\mu^x (1-\mu)^{1-x}\\ &=&0^2*\mu^0 (1-\mu)^1+1^2*\mu^1 (1-\mu)^0=\mu \end{eqnarray*} }$
${\displaystyle {\bf E}[x]^2=\mu^2 }$
したがって、
${\displaystyle {\bf E}[x^2]-{\bf E}[x]^2=\mu-\mu^2=\mu(1-\mu) }$
と示せます。

(4)エントロピー

エントロピー(平均情報量)の式は
${\displaystyle H[x]=-\sum_x p(x)\ln p(x) }$
で与えられます。どうしてこうなるのかは演習1.28で示しました。(そのうち……まとめます)
この式に素直に代入すると、
${\displaystyle \begin{eqnarray*} H[p]&=&-\sum_x p(x)\ln p(x)\\ &=&-\sum_{x=0} ^1 p(x|\mu)\ln p(x|\mu)\\ &=&-\mu^0 (1-\mu)^1 \ln{\mu^0 (1-\mu)^1}-\mu^1 (1-\mu)^0 \ln{\mu^1 (1-\mu)^0}\\ &=&-(1-\mu)\ln(1-\mu)-\mu\ ln \mu \end{eqnarray*} }$
と示せます。

エントロピーは、分布の持つ情報量の大きさを表す尺度ですが、個人的には「分布を用いた予測の難しさを表す尺度」と言い換えた方がしっくりきました。
例えば表裏が均等に出るフェアなコイン(エントロピーが最大)と、表が99%の確率で出るイカサマコイン(情報エントロピーが小さい)を比べると、次に出る目の予測は前者の方がずっと難しいです。後者はとりあえず表と言っておけばほぼ的中します。
(4)式を用いて具体的に計算すると、
フェアなコインのエントロピーは $\mu=0.5$ を代入して0.693
イカサマコインのエントロピーは $\mu=0.99$ を代入して0.0560　となります

また、前者は一様分布であり後者は極端に尖った分布ですから、平らな分布ほどエントロピーが大きいということも直感的に理解できます。
このあたりのことは
情報って何だろう？
がとても参考になりました。

blueblog

宇宙一統計ができない農学系M1の勉強用ブログ

PRML悪戦苦闘(演習問題 2.1)

2.1

問題文

(1)正規化

(2)期待値

(3)分散

(4)エントロピー