User-transparent Distributed TensorFlow(User-transparent Distributed TensorFlow)

田中専務

拓海先生、最近うちの若手が「分散TensorFlowで学習を速くできます」と騒いでいるのですが、正直私はよく分かりません。要するに何が変わるのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!要点から言うと、大きなモデルや大量データの学習を、手を煩わせず複数の計算機で効率よく動かせるようにした研究です。大丈夫、一緒に整理していきますよ。

田中専務

うちの工場にもスーパーコンピュータはないし、クラウドに全部載せるのも不安です。現場に入れるにはどのくらい改修が必要なんですか。

AIメンター拓海

ポイントは三つです。第一に既存のTensorFlow(TensorFlow:機械学習フレームワーク)スクリプトを大きく変えずに動かせる点、第二に高速な計算機間通信を使える点、第三に使い手側の改修負担を最小に抑える点です。これらが導入コストを下げますよ。

田中専務

これって要するに、うちが作っている既存の学習プログラムを書き直さずに、そのまま速く動かせるということですか?

AIメンター拓海

その通りです。言い換えると、エンジン本体(TensorFlowランタイム)を拡張して、ユーザーのスクリプトはほぼそのままに、内部で分散実行を仲介する設計です。投資対効果の面でも有利に働きますよ。

田中専務

でも通信とか専門的な設定は必要でしょう。うちの現場のネットワークで本当に高速に動くものなんですか。

AIメンター拓海

そこが技術の肝です。Message Passing Interface(MPI:メッセージパッシング・インターフェース)という仕組みを用いて、スーパーコンピュータなどで使われる高速通信(例:Remote Direct Memory Access、RDMA)に対応させています。つまり、ネットワークがそれに対応していれば効率良く走るんです。

田中専務

要するに、現場の回線が普通のLANだと恩恵は薄いけれど、対応したインターコネクトがあれば大幅に速くできる、と。分かりやすいです。

AIメンター拓海

その見立ては正しいですよ。導入時の実務アドバイスとしては、現場のネットワーク評価、トレーニングデータ量の把握、そして運用体制の設計の三つを優先してください。大丈夫、一緒にやれば必ずできますよ。

田中専務

ありがとうございます。では最後に、私の言葉でまとめると、既存のTensorFlowの書き換え負担をほとんどかけずに、MPIなどの高速通信を活かして大規模学習を効率化する技術、という理解で正しいでしょうか。これなら部長会で説明できます。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む