大規模人工ニューラルネットワーク：MapReduceに基づく深層学習 (Large-scale Artificial Neural Network: MapReduce-based Deep Learning)

田中専務

拓海先生、お世話になります。最近、部下から「深層学習をクラウドで回せばうちの生産データを活かせます」と言われまして、正直ピンと来ておりません。そもそも大規模データを学習させる際の課題は何なのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！結論を先に言うと、大規模データを効率よく学習するには「計算の並列化」「I/O（入出力）コストの低減」「学習手順の工夫」が重要ですよ。順を追って分かりやすく説明しますから、大丈夫、一緒に理解できますよ。

田中専務

ありがとうございます。具体的にはどの技術を使えばいいのですか。部下はMapReduceという言葉を出してきたのですが、それで何が変わるのかが分かりません。

AIメンター拓海

いい質問ですね。MapReduce（MapReduce、マップリデュース）はデータ処理を小さな単位に分けて並列処理する仕組みですよ。要点は三つあります。1）データを分割して同時に処理できる、2）並列化で総時間を短縮できる、3）既存のクラスタ（複数台の安価なサーバ）で動く、です。これによって大きなデータの学習が現実的になりますよ。

田中専務

なるほど。しかしうちの現場データはそもそも冗長で、学習しても精度が出るのか不安です。冗長データの扱いについては何か考え方はありますか。

AIメンター拓海

素晴らしい着眼点ですね！冗長データは学習効率を下げますから、前処理で重要な特徴を抽出するか、あるいは層ごとの事前学習（pre-training、事前学習）を使って有益な表現を作ると良いです。要点は三つ、データの整理、表現の学習、並列処理の両立です。これで精度と効率のバランスが取れますよ。

田中専務

ここで確認させてください。これって要するに、MapReduceで並列に学習させて、事前学習で無駄を減らし、トータルの学習時間とコストを削れるということでしょうか。

AIメンター拓海

その通りですよ。要点を簡潔にまとめると、1）MapReduceで計算を分散して時間を短縮、2）pre-training（事前学習）で表現を整えて冗長さを低減、3）I/O（入出力）対策で実運用コストを下げる、の三点です。大丈夫、投資対効果を説明できる形に一緒に落とし込みますよ。

田中専務

実際の導入で気をつける点は何でしょうか。現場のITインフラは古いサーバとExcel中心です。大規模クラスタを一から入れるほど余力はありません。

AIメンター拓海

素晴らしい現実的な視点ですね。現実的にはクラウドのHadoop（Hadoop、データ処理のプラットフォーム）や既存のマネージドサービスを使い、段階的に移行するのが良いです。要点は三つ、段階移行、既存データの整備、小さく始めて評価することです。これなら初期投資を抑えられますよ。

田中専務

分かりました。最後に、私が会議で使える短い説明フレーズと、導入判断のポイントを整理して教えていただけますか。

AIメンター拓海

もちろんです、田中専務。要点は三つにまとめられます。1）技術的にはMapReduceで分散学習し、pre-trainingで効率を上げる、2）現場導入は段階的にマネージドサービスを使って負荷を抑える、3）まずは小さなパイロットでROI（投資対効果）を評価する、です。大丈夫、一緒に設計すれば確実に進められますよ。

田中専務

分かりました。これを私の言葉で言い直すと、MapReduceで計算を分散して学習時間を縮め、事前学習で無駄を削って精度を担保し、まずは小さく試して投資対効果を確認する、ということでよろしいですね。

CATEGORY

大規模人工ニューラルネットワーク：MapReduceに基づく深層学習 (Large-scale Artificial Neural Network: MapReduce-based Deep Learning)

いいね:

関連

CATEGORY

共有:

いいね:

関連

関連する記事

3D物体検出のためのサブモジュラ最適化フレームワーク（STONE: A Submodular Optimization Framework for Active 3D Object Detection）

分散型勾配ブースティングフォレスト（Distributed Gradient Boosting Forest）

TransformerベースVAEにおけるグラフ誘導統語・意味空間（Graph-Induced Syntactic-Semantic Spaces in Transformer-Based Variational AutoEncoders）

低線量CT画像のノイズ除去に向けたGANベースのアーキテクチャ (GAN-Based Architecture for Low-dose Computed Tomography Imaging Denoising)

脳と身体のウェアラブルを使った創造的ゲームシステム（CreativeBioMan: Brain and Body Wearable Computing based Creative Gaming System）

並列テンパリングの混合時間に関する改良された境界（Improved Bound for Mixing Time of Parallel Tempering）

AI Business Reviewをもっと見る