ラビットチャレンジ 応用数学レポート3 情報理論

応用数学 数学

自己情報量

  • 対数の底が2のとき、単位はビット(bit)
  • 対数の底がeのとき、単位は(nat)

$$ I(x) =  – \log(P(x))  =  \log(W(x)) $$

 

シャノンエントロピー

  • 自己情報量の期待値

$$ H(x) = E(I(x)) = -E(\log (P(x)) = – \Sigma(P(x)\log( P(x))) $$

微分エントロピーともいうが、微分しているわけではない。
同様に確からしいとき、もっとも情報量がある。
機械学習の場合にはシャノンエントロピー最大の時を探す。誤差関数代わりに使用することもある。

カルバック・ライブラー ダイバージェンス

  • 同じ事象・確率変数における異なる確率分布P,Qの違いを表す
  • 情報利得とも呼ばれることがある

ここでのダイバージェンスはおおよそ距離の意味。
二つの確率分布P,Qの違いを距離のようにあらわす。数学的に距離の定義を満たさないのでダイバージェンスと呼ばれる。

$$ {\begin{align}
D_{KL}(P||Q)&=\mathbb{E}_{x\sim P}[\log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x\sim P}[\log(P(x))-\log(Q(x))]\\
&=\sum_{x}P(x)(-\log(Q(x))-(-\log(P(x)))\\
&=\sum_{x}P(x)\log\frac{P(x)}{Q(x)}
\end{align}
} $$

交差エントロピー

  • KLダイバージェンスの一部分を取り出したもの
  • Qについての自己情報量をPの分布で平均している

$$ {\begin{align}
H(P,Q)&=H(P)+D_{KL}(P||Q)\\
H(P,Q)&=-\mathbb{E}_{x\sim P}\log(Q(x))=-\sum_{x}P(x)\log(Q(x))
\end{align}
} $$

 

コメント

タイトルとURLをコピーしました