ラビットチャレンジ 深層学習day3レポート 確認テスト

Section0 深層学習全体像の復習

Q. p11

サイズ5×5の入力画像を、サイズ3×3のフィルタで畳み込んだ時の出力画像のサイズを答えよ。なおストライドは2、パディングは1とする。

A.
3×3

Section1 再帰型ニューラルネットワークの概念

RNN p23
Q.
RNNのネットワークには大きくわけて3つの重みがある。1つは入力から現在の中間層を定義する際にかけられる重み、1つは中間層から出力を定義する際にかけられる重みである。残り1つの重みについて説明せよ。(3分)

A.

一つ前の時刻の中間層から出力され、今の時刻の中間層へ渡される重み。
中間層から中間層への重み。

 

例題チャレンジ P26

プログラム穴埋め
Q.帰型ニューラルネットワークと構文木

A.

2 W.dot(np.concatenate([left, right]))

隣接単語(表現ベクトル)から表現ベクトルを作るという処理は、隣接している表現leftとrightを合わせたものを特徴量としてそこに重みを掛けることで実現する。つまり、W.dot(np.concatenate([left, right]))である。

BPTT p36

Q.
連鎖律の原理を使い、dz/dxを求めよ。
z = t^2
t = x +y

A.

BPTT p45
Q.
下図のy1をx・z0・z1・win・w・woutを用いて数式で表せ。
※バイアスは任意の文字で定義せよ。
※また中間層の出力にシグモイド関数g(x)を作用させよ

A.

例題チャレンジ p 53
Q. BPTT
A.
2  delta_t.dot(U)
RNNでは中間層出力h_{t}が過去の中間層出力h_{t-1},.., h_{1}に依存する。RNNにおいて損失関数を重みWやUに関して偏微分するときは、それを考慮する必要があり、dh_{t}/dh_{t-1} = Uであることに注意すると、過去に遡るたびにUが掛けられる。つまり、delta_t= delta_t.dot(U)となる

 

Section2 LSTM

Q. p62
シグモイド関数を微分した時、入力値が0の時に最大値をとる。その値として正しいものを選択肢から選べ

A.
(2) 0.25

例題チャレンジ p64

Q.勾配クリッピング

A.

1 gradient * rate
勾配のノルムがしきい値より大きいときは、勾配のノルムをしきい値に正規化するので、クリッピングした勾配は、勾配×(しきい値/勾配のノルム)と計算される。つまり、gradient * rateである

 

Q. p78
以下の文章をLSTMに入力し空欄に当てはまる単語を予測したいとする。文中の「とても」という言葉は空欄の予測においてなくなっても影響を及ぼさないと考えられる。このような場合、どのゲートが作用すると考えられるか。
「映画おもしろかったね。ところで、とてもお腹が空いたから何か____。」

A.
忘却ゲート

 

演習チャレンジ p 79

Q. LSTM順伝播
A.
3 input_gate* a + forget_gate* c
新しいセルの状態は、計算されたセルへの入力と1ステップ前のセルの状態に入力ゲート、忘却ゲートを掛けて足し合わせたものと表現される。つまり、input_gate* a + forget_gate* cである

 

Section3 GRU

Q. P88

LSTMとCECが抱える課題について、それぞれ簡潔に述べよ

A.
LSTMは4つの部品で構成されるため、パラメータ数が多く、計算負荷が高くなる。
CECは勾配が1で学習能力がない。

演習チャレンジ p90
Q.GRU順伝播
A.
4  (1-z) * h + z * h_bar
新しい中間状態は、1ステップ前の中間表現と計算された中間表現の線形和で表現される。つまり更新ゲートzを用いて、(1-z) * h + z * h_barと書ける

 

Q. P92
LSTMとGRUの違いを簡潔に述べよ。

A.
LSTMが入力ゲート、出力ゲート、忘却ゲート、CECがあり、4つの構成要素を持つためパラメータの数が多く、計算量が大きい。
GRUはCECを持たず、リセットゲートと更新ゲートのみを持つためパラメータの数が少ない。そのため、計算量をTSTMに比べて少ない。

Section4 双方向RNN

演習チャレンジ P 95
Q. 双方向RNN順伝播

A.

4  np.concatenate([h_f, h_b[::-1]], axis=1)
双方向RNNでは、順方向と逆方向に伝播したときの中間層表現をあわせたものが特徴量となるので、np.concatenate([h_f, h_b[::-1]], axis=1)である

Section5 Seq2Seq

Q. P109

下記の選択肢から、seq2seqについて説明しているものを選べ。

A.
(2) RNNを用いたEncoder-Decoderモデルの一種であり、機械翻訳などのモデルに使われる

演習チャレンジ P110
Q. Encoder RNN
A.
1  E.dot(w)
単語wはone-hotベクトルであり、それを単語埋め込みにより別の特徴量に変換する。これは埋め込み行列Eを用いて、E.dot(w)と書ける。

 

Q. P119
seq2seqとHRED、HREDとVHREDの違いを簡潔に述べよ。

A.
seq2seqは一文の一問一答に対して処理ができる、ある時系列データからある時系列データを作り出すネットワーク。
HREDはseq2seqの機構にそれまでの文脈の意味ベクトルを解釈に加えることで文脈の意味をくみ取った文の変換ができるようにしたもの

HREDは文脈に対して当たり障りのない返答したしかできなくなった問題に対して、VHREDはVAEの潜在変数の概念を導入して当たり障りのない返答以上の解答ができるように改良を施したもの。

 

Q. P128
VAEに関する下記の説明文中の空欄に当てはまる言葉を答えよ。

A.

自己符号化器の潜在変数に各列変数を導入したもの。

 

Section6 word2vec

該当範囲に問題がないため割愛

Section7 Attention Mechanism

Q. p137
RNNとword2vec、seq2seqとAttentionの違いを簡潔に述べよ。

RNNは時系列データを処理するのに適したニューラルネットワーク。
word2vecは単語の分散表現ベクトルを得る手法。

seq2seqはある時系列データから別の時系列データを得る手法

Attention Mechanismは時系列データの中身の関連性に重みを付ける手法。

コメント

タイトルとURLをコピーしました