自己情報量
- 対数の底が2のとき、単位はビット(bit)
- 対数の底がeのとき、単位は(nat)
$$ I(x) = – \log(P(x)) = \log(W(x)) $$
シャノンエントロピー
- 自己情報量の期待値
$$ H(x) = E(I(x)) = -E(\log (P(x)) = – \Sigma(P(x)\log( P(x))) $$
微分エントロピーともいうが、微分しているわけではない。
同様に確からしいとき、もっとも情報量がある。
機械学習の場合にはシャノンエントロピー最大の時を探す。誤差関数代わりに使用することもある。
カルバック・ライブラー ダイバージェンス
- 同じ事象・確率変数における異なる確率分布P,Qの違いを表す
- 情報利得とも呼ばれることがある
ここでのダイバージェンスはおおよそ距離の意味。
二つの確率分布P,Qの違いを距離のようにあらわす。数学的に距離の定義を満たさないのでダイバージェンスと呼ばれる。
$$ {\begin{align}
D_{KL}(P||Q)&=\mathbb{E}_{x\sim P}[\log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x\sim P}[\log(P(x))-\log(Q(x))]\\
&=\sum_{x}P(x)(-\log(Q(x))-(-\log(P(x)))\\
&=\sum_{x}P(x)\log\frac{P(x)}{Q(x)}
\end{align}
} $$
交差エントロピー
- KLダイバージェンスの一部分を取り出したもの
- Qについての自己情報量をPの分布で平均している
$$ {\begin{align}
H(P,Q)&=H(P)+D_{KL}(P||Q)\\
H(P,Q)&=-\mathbb{E}_{x\sim P}\log(Q(x))=-\sum_{x}P(x)\log(Q(x))
\end{align}
} $$
コメント