blueblog

宇宙一統計ができない農学系M1の勉強用ブログ

PRML悪戦苦闘(演習問題 2.5)

2.5

問題文(適当に要約)

ベータ分布 Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1}が正規化されていることを示す。
これは
 \int_0^1 \mu^{a-1}(1-\mu)^{b-1}d\mu=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}(1)
を示すことと等価である。
ガンマ関数の定義 \Gamma(x)\equiv \int_0^\infty u^{x-1}e^{-u}duより、

{ \displaystyle
\begin{eqnarray*}
\Gamma(a)\Gamma(b)=\int_0^\infty u^{a-1}e^{-x}dx\int_0^\infty u^{b-1}e^{-y}dy
\end{eqnarray*}
}
を得る。この式を用いて(1)を証明せよ

解答

ガンマ関数の性質については演習1.17が詳しいです(そのうちまとめます)
→まとめました!blue0620.hatenablog.com


{ \displaystyle
\begin{eqnarray*}
\Gamma(a)\Gamma(b)&=&\int_0^\infty u^{a-1}e^{-x}dx\int_0^\infty u^{b-1}e^{-y}dy\\
&=&\int_0^\infty\int_0^\infty e^{-{x+y}}x^{a-1}y^{b-1}dydx
\end{eqnarray*}
}

 t=y+xとする。 \frac{dt}{dy}=1より、

{ \displaystyle
\begin{eqnarray*}
\int_0^\infty\int_0^\infty e^{-t}x^{a-1}{t-x}^{b-1}dtdx&=&\int_0^\infty\int_0^\infty e^{-t}x^{a-1}{t-x}^{b-1}dxdt
\end{eqnarray*}
}

 x=t\muとする。\frac{dx}{d\mu}=tより、


{ \displaystyle
\begin{eqnarray*}
\int_0^\infty\int_0^\infty e^{-t}{t\mu}^{a-1}(t-t\mu)^{b-1}t d\mu dt&=&\int_0^\infty\int_0^\infty e^{-t}{t}^{a-1}{\mu}^{a-1}{t}^{b-1}(1-\mu)^{b-1}t d\mu dt\\
&=&\int_0^\infty {\mu}^{a-1}(1-\mu)^{b-1}d\mu \int_0^\infty e^{-t}{t}{t}^{a-1}{t}^{b-1}dt\\
&=&\int_0^\infty {\mu}^{a-1}(1-\mu)^{b-1}d\mu \int_0^\infty e^{-t}{t}^{a+b-1}dt\\
&=&\int_0^\infty {\mu}^{a-1}(1-\mu)^{b-1}d\mu \Gamma(a+b)=\Gamma(a)\Gamma(b)
\end{eqnarray*}
}

したがって、
{ \displaystyle
\begin{eqnarray*}
\int_0^1 \mu^{a-1}(1-\mu)^{b-1}d\mu=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}
\end{eqnarray*}
}

より、ベータ分布が正規化されていると言えます。

PRML悪戦苦闘(演習問題 2.4)

夏休みの自主課題としてPRMLの演習問題を解いています。間違いがあったらご指摘下さい。

2.4

問題文

(1)
二項分布の平均が
{ \displaystyle
{\bf E}[m]=\sum_{m=0}^N m Bin(x|\mu)=N\mu
}
であることを示せ
(2)
二項分布の分散が
{ \displaystyle
{\bf E}[m]=\sum_{m=0}^N (m-{\bf E}[m]) Bin(x|\mu)=N\mu(1-\mu)
}
であることを示せ

解答

(1)二項分布の平均
PRML悪戦苦闘(演習問題 2.3) - blueblogで確認した二項分布の正規化条件
 \sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix} \mu^m(1-\mu)^{N-m}=1
の両辺を \mu微分します。

{ \displaystyle
\begin{eqnarray*}
(左辺)&=&\sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix} \{m\mu^{m-1}(1-\mu)^{N-m}-(N-m)\mu^m(1-\mu)^{n-m-1}\\
&=&\sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix}\mu^{m-1} (1-\mu)^{N-m-1}\{m(1-\mu)-(N-m)\mu\}\\
&=&\sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix}\mu^{m-1} (1-\mu)^{N-m-1}(m-N\mu)
\end{eqnarray*}
}
(右辺)=0


したがって
\sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix}\mu^{m-1} (1-\mu)^{N-m-1}(m-N\mu)=0

この両辺を\mu(1-\mu)倍して
{ \displaystyle
\begin{eqnarray*}
\sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix}\mu^{m} (1-\mu)^{N-m}(m-N\mu)&=&\sum_{m=0}^N m \begin{pmatrix}N\\m\end{pmatrix}\mu^{m} (1-\mu)^{N-m}-N\mu \sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix}\mu^{m}(1-\mu)^{N-m}\\
&=&\sum_{m=0}^N m Bin(x|\mu)-N\mu=0
\end{eqnarray*}
}
より示せます。上式の1行目の第二項は正規化条件の式を代入することでN\mu*1のように変形しています。

(2)二項分布の分散
分散の方は同様の手順で二階微分して {\bf E}[m^2] を計算すれば良いです。式変形がつらいので時間のあるときにまとめます。(放置の予感)

PRML悪戦苦闘(演習問題 2.3)

夏休みの自主課題としてPRMLの演習問題を解いています。間違いがあったらご指摘下さい。

2.3

問題文

(1)
全部でN個ある対象からm個の同じものを選ぶ組み合わせの数の定義 \begin{pmatrix}N\\m\end{pmatrix}\equiv \frac{N!}{(N-m)!m!}を用いて
{ \displaystyle
\begin{pmatrix}N\\m\end{pmatrix}+\begin{pmatrix}N\\{m-1}\end{pmatrix}=\begin{pmatrix}{N+1}\\m\end{pmatrix}
}を示せ

(2)
(1)の結果を用いて帰納法で次の結果を証明せよ(二項定理)
{ \displaystyle
(1+x)^N=\sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix} x^m
}

(3)
二項分布 \sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix} \mu^m(1-\mu)^{N-m}が正規化されていることを二項定理を用いて示せ


(2)までは高校数学ですね。 \begin{pmatrix}N\\m\end{pmatrix} {}_N C_mと同じ意味です。


(1)
{ \displaystyle
\begin{eqnarray*}
\begin{pmatrix}N\\m\end{pmatrix}+\begin{pmatrix}N\\{m-1}\end{pmatrix}=\begin{pmatrix}{N+1}\\m\end{pmatrix}&=&\frac{N!}{(N-m)!m!}+\frac{N!}{(N-m+1)!(m-1)!}\\
&=&N!{\frac{N-m+1}{(N-m+1)!m!}+\frac{m}{(N-m+1)!m!}}\\
&=&N! \frac{N+1}{(N-m+1)!m!}\\
&=&\frac{(N+1)!}{(N-m+1)!m!}=\begin{pmatrix}{N+1}\\m\end{pmatrix}
\end{eqnarray*}
}
よって示せました。


(2)
問題文の指示通り帰納法で示します。

(i)N=0のとき
{ \displaystyle
(右辺)=\sum_{m=0}^0 \begin{pmatrix}0\\m\end{pmatrix} x^m=\begin{pmatrix}0\\0\end{pmatrix} x^0=\frac{0!}{(0-0)!0!}=1\\
(左辺)=(1+x)^0=1
}

より(左辺)=(右辺)

(ii)N=kのとき成立すると仮定する
すなわち
{ \displaystyle
(1+x)^k=\sum_{m=0}^k \begin{pmatrix}k\\m\end{pmatrix} x^m
}
 N=k+1のとき
{ \displaystyle
\begin{eqnarray*}
(右辺)=\sum_{m=0}^{k+1} \begin{pmatrix}{k+1}\\m\end{pmatrix} x^m&=&\sum_{m=1}^{k}\{\begin{pmatrix}k\\m\end{pmatrix}+\begin{pmatrix}k\\{m-1}\end{pmatrix}\}x^m+\begin{pmatrix}{k+1}\\0\end{pmatrix}x^0+\begin{pmatrix}{k+1}\\{k+1}\end{pmatrix}x^{k+1}\\
&=&\sum_{m=1}^{k}\{\begin{pmatrix}k\\m\end{pmatrix}+\begin{pmatrix}k\\{m-1}\end{pmatrix}\}x^m+1+x^{k+1}\\
&=&\sum_{m=0}^{k}\begin{pmatrix}k\\m\end{pmatrix}x^m-\begin{pmatrix}k\\0\end{pmatrix}x^0+\sum_{m=1}^{k}\begin{pmatrix}k\\{m-1}\end{pmatrix}x^m+1+x^{k+1}\\
&=&(x+1)^N+x\sum_{n=0}^{k}\begin{pmatrix}k\\n\end{pmatrix}x^n-x\begin{pmatrix}k\\k\end{pmatrix}x^k+x^{k+1}\\
&=&(x+1)^N+x(x+1)^N-x^{k+1}+x^{k+1}\\
&=&(x+1)(x+1)^N=(x+1)^{N+1}=(左辺)
\end{eqnarray*}
}
一行目の式変形で(1)で証明した等式を用いています。
三行目の第二項と第四項が打ち消し合い、四行目と五行目で帰納法の仮定を用いて式変形しています。

(3)
これも指示通りに変形すれば示せます。
{ \displaystyle
\begin{eqnarray*}
\sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix} \mu^m(1-\mu)^{N-m}&=&(1-\mu)^N \sum_{m=0}^N \begin{pmatrix}N\\m\end{pmatrix} (\frac{\mu}{1-\mu})^m\\
&=&(1-\mu)^N \{1+\frac{\mu}{1-\mu}\}^N\\
&=&(1-\mu)^N (\frac{1}{1-\mu})^N=1
\end{eqnarray*}
}
よって二項分布が正規化されていることが分かります。
二行目から三行目への変形に(2)で示した二項定理を用いています。

PRML悪戦苦闘(演習問題 2.2)

夏休みの自主課題としてPRMLの演習問題を解いています。間違いがあったらご指摘下さい。

2.2

問題文

ベルヌーイ分布を対称な x\in \{-1,1\}を用いた等価な表現で表した時、分布は

{ \displaystyle
p(x|\mu)=(\frac{1-\mu}{2})^{\frac{(1-x)}{2}} (\frac{1+\mu}{2})^{\frac{(1+x)}{2}}
}
と書くことができる。ただし、 \mu \in [-1,1]である。
この分布が
(1)正規化されていることを示し
(2)平均
(3)分散
(4)エントロピー を計算せよ


PRML悪戦苦闘(演習問題 2.1) - blueblog
のときと同じことをすれば良いです。

(1)正規化

分布の式にx=-1,1を代入するだけです。
{ \displaystyle
\begin{eqnarray*}
\sum p(x|\mu)&=&p(x=-1|\mu)+p(x=1|\mu)\\
&=&(\frac{1-\mu}{2})^{\frac{2}{2}} (\frac{1+\mu}{2})^{\frac{0}{2}}+(\frac{1-\mu}{2})^{\frac{2}{2}} (\frac{1+\mu}{2})^{\frac{0}{2}}\\
&=&\frac{1-\mu}{2}+\frac{1+\mu}{2}=1
\end{eqnarray*}
}
と示せます。

(2)期待値

これも代入するだけです。
{ \displaystyle
\begin{eqnarray*}
{\bf E}[x]&=&\sum x*p(x|\mu)\\
&=&(\frac{1-\mu}{2})^1 (\frac{1+\mu}{2})^0 (-1)+(\frac{1-\mu}{2})^0 (\frac{1+\mu}{2})^1\\
&=&-\frac{1-\mu}{2}+\frac{1+\mu}{2}=\mu
\end{eqnarray*}
}
と求まります。

(3)分散

これも(ry
{\displaystyle
\begin{eqnarray*}
{\bf E}[x^2]&=&\sum x^2*p(x|\mu)\\
&=&(\frac{1-\mu}{2})^1 (\frac{1+\mu}{2})^0 (-1)^2+(\frac{1-\mu}{2})^0 (\frac{1+\mu}{2})^1 (1)^2\\
&=&\frac{1-\mu}{2}+\frac{1+\mu}{2}=1
\end{eqnarray*}
}
{\displaystyle
{\bf E}[x]^2=\mu^2
}
したがって、
{\displaystyle
var[x]={\bf E}[x^2]-{\bf E}[x]^2=1-\mu^2=1^2-\mu^2
}
と求まります。

(4)エントロピー

{\displaystyle
\begin{eqnarray*}
H[p]&=&-\sum_x p(x)\ln p(x)\\
&=&-\sum p(x|\mu)\ln p(x|\mu)\\
&=&-\{\frac{1-\mu}{2}\ln \frac{1-\mu}{2}\}-\{\frac{1+\mu}{2}\ln \frac{1+\mu}{2}\}\\
&=&-\frac{1-\mu}{2}\ln \frac{1-\mu}{2} -\frac{1+\mu}{2}\ln \frac{1+\mu}{2}
\end{eqnarray*}
}
と求まります。

PRML悪戦苦闘(演習問題 2.1)

夏休みの自主課題としてPRMLの演習問題を解いています。間違いがあったらご指摘下さい。

いきなり2章からスタートします。数式の練習も兼ねてやや過剰に詳しく書きます。

2.1

問題文

(1)~(3)
ベルヌーイ分布
{ \displaystyle
Bern(x|\mu)=\mu^x(1-\mu)^{1-x}
}
が次の性質を満たすことを確かめよ
(1)正規化
{ \displaystyle
\sum_{x=0}^{1}p(x|\mu)=1\\
}
(2)期待値
{ \displaystyle
{\bf E}[x]=\mu\\
}
(3)分散
{ \displaystyle
var[x]=\mu(1-\mu)\\
}

(4)エントロピー
ベルヌーイ分布に従う二値確率変数xエントロピー H[x]
{ \displaystyle
H[x]=-\mu \ln \mu - (1-\mu)\ln(1-\mu)
}
で与えられることを示せ。

(1)正規化

ベルヌーイ分布において確率変数は2値をとります。(例:コインの裏表。x=0なら裏、x=1なら表)
ここでx=1となる確率p(x=1|\mu)\muとします。
今考えているのは二値確率なので、x=0となる確率p(x=0|\mu)はこの余事象 1-\muで表せます。
したがって、
{ \displaystyle
\begin{eqnarray*}
\sum_{x=0}^{1}p(x|\mu)&=&p(x=0|\mu)+p(x=1|\mu)\\
&=&(1-\mu)+\mu=1
\end{eqnarray*}
}
と示せます。

(2)期待値

離散確率分布の期待値の定義から、
{\displaystyle
{\bf E}[x]=\sum(実現値)*(その実現値となる確率)=\sum x_i*p(x=x_i)
}
となります。

あとは実現値を xとして、上式の確率のところにベルヌーイ分布の式を代入すれば良いです。
{ \displaystyle
\begin{eqnarray*}
{\bf E}[x]&=&\sum_{x=0}^{1}x*\mu^x (1-\mu)^{1-x}\\
&=&0*\mu^0 (1-\mu)^1+1*\mu^1 (1-\mu)^0=\mu
\end{eqnarray*}
}
と示せます。

(3)分散

分散の定義から、
{\displaystyle
var[x]={\bf E}[(x-{\bf E}[x])^2 ]={\bf E}[x^2]-{\bf E}[x]^2
}
となります。(この式の導出は演習1.5で扱いました。そのうちまとめます)
{\displaystyle
\begin{eqnarray*}
{\bf E}[x^2]&=&\sum_{x=0}^{1}x^2*\mu^x (1-\mu)^{1-x}\\
&=&0^2*\mu^0 (1-\mu)^1+1^2*\mu^1 (1-\mu)^0=\mu
\end{eqnarray*}
}
{\displaystyle
{\bf E}[x]^2=\mu^2
}
したがって、
{\displaystyle
{\bf E}[x^2]-{\bf E}[x]^2=\mu-\mu^2=\mu(1-\mu)
}
と示せます。

(4)エントロピー

エントロピー(平均情報量)の式は
{\displaystyle
H[x]=-\sum_x p(x)\ln p(x)
}
で与えられます。どうしてこうなるのかは演習1.28で示しました。(そのうち……まとめます)
この式に素直に代入すると、
{\displaystyle
\begin{eqnarray*}
H[p]&=&-\sum_x p(x)\ln p(x)\\
&=&-\sum_{x=0} ^1 p(x|\mu)\ln p(x|\mu)\\
&=&-\mu^0 (1-\mu)^1 \ln{\mu^0 (1-\mu)^1}-\mu^1 (1-\mu)^0 \ln{\mu^1 (1-\mu)^0}\\
&=&-(1-\mu)\ln(1-\mu)-\mu\ ln \mu
\end{eqnarray*}
}
と示せます。

エントロピーは、分布の持つ情報量の大きさを表す尺度ですが、個人的には「分布を用いた予測の難しさを表す尺度」と言い換えた方がしっくりきました。
例えば表裏が均等に出るフェアなコイン(エントロピーが最大)と、表が99%の確率で出るイカサマコイン(情報エントロピーが小さい)を比べると、次に出る目の予測は前者の方がずっと難しいです。後者はとりあえず表と言っておけばほぼ的中します。
(4)式を用いて具体的に計算すると、
フェアなコインのエントロピー\mu=0.5を代入して0.693
イカサマコインのエントロピー\mu=0.99を代入して0.0560 となります

また、前者は一様分布であり後者は極端に尖った分布ですから、平らな分布ほどエントロピーが大きいということも直感的に理解できます。
このあたりのことは
情報って何だろう?
がとても参考になりました。