ラビットチャレンジ 深層学習day2レポート 確認テスト

Section1 勾配消失問題

Q.連鎖律の原理を使い、dz/dxを求めよ。

A.

 

Q.シグモイド関数を微分した時、入力値が0の時に最大値をとる。その値として正しいものを選択肢から選べ。

A.

②0.25

Q.重みの初期値に0を設定すると、どのような問題が発生するか。簡潔に説明せよ。

A.
正しい学習を行えない。
全ての重みの値が均一に更新されるため多数の重みをもつ意味がなくなる。
Q.バッチ正規化
一般的に考えられるバッチ正規化の効果を2点挙げよ。
A.
・重みの学習が安定化し、調整がスムーズに進むため、スピードアップする。
・過学習を抑えることができる。

Section2 学習率最適化手法

学習率最適化

Q.モメンタム・AdaGrad・RMSPropの特徴をそれぞれ簡潔に説明せよ。

A.
・モメンタム
局所的最適解にはならず、大域的最適解になりやすい。
最初は緩やかに進むが、一気に学習率が大きくなって最適解に向かって進む。
慣性に従うので最後、最適解に収束するのに時間がかかる。

株価の移動平均のような進み方をする。勾配降下法はジグザグ。

 

・AdaGrad
それまでの学習率の経験を活かす。
勾配の緩やかな斜面に対して、最適値に近づける。誤差関数があまり極端になっていない場合。
それぞれの重みに対して個別に調整する機能を持っている。

課題として大域的最適解にたどり着きづらい。鞍点問題という。

 

・RMSProp

AdaGradを改良して鞍点問題をスムーズに解消できるようにした。
大域的最適解を見つけやすい。
ハイパーパラメータの調整が必要な場合は少ない

Section3 過学習

正則化p59
Q.機械学習で使われる線形モデル(線形回帰、主成分分析など)の正則化は、モデルの重みを制限することで可能となる。
前述の線形モデルの正則化手法の中にリッジ回帰という手法があり、その特徴として正しいものを選択しなさい。
A.
(a) ハイパーパラメータを大きな値に設定すると、すべての重みが限りなく0に近づく
Q.L1正則化、L2正則化 P64
下図について、L1正則化を表しているグラフはどちらか答えよ。
A.右図。

Section4 畳み込みニューラルネットワークの概念

CNN P95
Q.サイズ6×6の入力画像を、サイズ2×2のフィルタで畳み込んだ時の出力画像のサイズを答えよ。なおストライドとパディングは1とする。
A.
7×7
(補足)公式
Oh = (画像の高さ+2×パディング高さ-フィルター高さ / ストライド) +1
Ow = (画像の幅+2×パディング幅-フィルター幅 / ストライド) +1

Section5 最新のCNN(AlexNet)

該当する確認テストは無し。

コメント

タイトルとURLをコピーしました