
拓海先生、最近うちの若手が「大きいAIモデルは通信コストが問題だ」と騒いでいますが、経営としては具体的に何が問題なのかピンときません。要するに設備を増やせば解決する話ではないのですか。

素晴らしい着眼点ですね!大きいモデルの学習では、単に計算量だけでなく、機器間のデータのやり取り、つまり通信がエネルギーや時間の大きな部分を占めるんです。設備を増やすだけでは通信が増えてコストが跳ね上がることがありますよ。

それは具体的にはどんな仕組みで通信量が増えるのですか。うちの現場のサーバを増やす判断が正しいかどうか知りたいのです。

大丈夫、一緒にやれば必ずできますよ。簡単に言うと、大規模モデルは一つの装置に収まらないため、モデルのパーツを複数台に分散します。すると各サーバ間でパラメータや中間結果を頻繁にやり取りする必要が出て、通信がエネルギーや時間のボトルネックになるんです。

へえ、それをこの論文ではどう解決しているのですか。若手は”phantom parallelism”という言葉を繰り返していましたが、それって要するに何ということ?

これって要するに、通信で余分なデータを何度も送らずに済むように作業の仕方を変えることで、総合的なエネルギーを下げるということですよ。具体的には”phantom parallelism(ファントム・パラレリズム、以降PP)”という新しい並列化の考え方で、通信の回数や量を抑えつつ学習が進むように工夫しています。

本当に通信だけでそんなに変わるのですか。現場に導入した場合の投資対効果はどのように見ればいいでしょう。

要点は三つです。第一に総エネルギー消費と時間を下げることがコスト削減につながる点、第二に既存の圧縮や低精度化と併用できるため追加効果が見込める点、第三に実装は並列化の仕方を変えるだけでハードを完全に変える必要は少ない点です。ですから初期投資は抑えつつ運用コストを下げられる可能性が高いんです。

なるほど。導入で注意すべきリスクは何でしょうか。現場が混乱しないかが一番気になります。

現場でのリスクは主に実装の複雑さと互換性です。既存のトレーニングコードや通信ライブラリと噛み合わせる必要があるため、まずは小規模で検証し、効果が出るかを確かめる段階的な導入が肝心ですよ。大丈夫、一緒に設計すれば必ずできますよ。

わかりました。要するに、通信のやり方を賢く変えることでエネルギーと時間を節約し、段階的に導入すれば現場の混乱も抑えられるということですね。ではまずはパイロットから始めてみます。
