
拓海先生、最近部下から「深いLSTMを使えば音声認識が良くなる」と言われたんですが、深いって何が問題なんでしょうか。導入で失敗しないか心配でして。

素晴らしい着眼点ですね!深いLSTMでよく起きるのは学習が途中でうまく進まなくなる現象で、これは「勾配消失(gradient vanishing)」と呼ばれますよ。大丈夫、一緒に仕組みと対処法を3点に絞って説明できますよ。

勾配消失という言葉は聞いたことがありますが、実務に置き換えるとどんな不都合が起きるんですか。学習が遅くなる以外にありますか。

素晴らしい着眼点ですね!実務では、学習が進まないだけでなく、最終的に性能が伸び悩み、現場で期待した改善が得られないことがあります。要点は1) 学習が不安定、2) 深い層が意味ある信号を伝えられない、3) 計算リソースが無駄になる、の3点ですよ。

なるほど。じゃあ、それを解決するのが今回の論文でいうところの「層軌跡LSTM(ltLSTM)」ということですか。

素晴らしい着眼点ですね!そのとおりです。ltLSTMは時間軸の記憶(time recurrence)と層ごとのクラス識別(senone classification)という2つの目的を分けて扱う発想で、深いネットワークでも情報が届きやすくなりますよ。

これって要するに時間の流れを追う役割と層を横断して分類に使う役割を分けた、ということですか?

素晴らしい着眼点ですね!まさにそのとおりです。簡単に言えば、時間を追う本来のLSTMは時間方向に専念させ、層を走査する別のLSTMが層の情報をまとめて最終判断に使います。これで勾配が伝わりやすくなるのです。

経営視点でいうと、これによって何が改善され、投資対効果はどう見ればいいですか。現場に持ち込むときの注意点はありますか。

素晴らしい着眼点ですね!要点は3つだけ覚えてください。1) 同じ計算時間でより深いモデルが安定動作する、2) 精度向上が期待できるためモデル更新の価値が出やすい、3) 実装は若干複雑だが並列処理で時間コストを抑えられる、です。一緒に段階的に進めれば必ずできますよ。

分かりました。要は時間の処理と層の評価を分けることで、深いネットワークの効率を高めたということですね。では社内会議でそう説明します。ありがとうございました。


