CASSINI: ネットワーク認識型ジョブスケジューリング（CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters）

田中専務

拓海先生、最近部下が「クラスタのスケジューラを変えれば学習時間が短くなる」と言ってきて困っています。そもそも学習ジョブのスケジューリングでネットワークがそんなに重要なのですか？

AIメンター拓海

素晴らしい着眼点ですね！確かに分かりにくい話ですが、大丈夫、一緒に整理しましょう。最近のMachine Learning (ML)（機械学習）はGPUを複数台で動かすことが増え、そのときデータや勾配をやり取りするネットワークの負荷が学習時間の足を引っ張るのです。

田中専務

なるほど。で、その論文では具体的に何を提案しているのですか？要するにどんな仕組みで速くなるのですか？

AIメンター拓海

簡単に言うとCASSINIという仕組みで、ジョブ同士の通信の『波』をずらしてぶつからないように配置するのです。専門用語を使うとaffinity graph（アフィニティグラフ）を作り、時間的なオフセットを決めて通信フェーズを交互に並べることで混雑を避けます。

田中専務

これって要するに、工場のラインで作業員の手元がぶつからないように動かすようなもの、ということですか？

AIメンター拓海

まさにその比喩がぴったりです。混雑する通路を時間帯でずらして通行させるだけで全体の流れが良くなる。ポイントは3つです。1つ目、ネットワークの『通信パターン』を見ていること。2つ目、ジョブを置く位置だけでなく時間のズレを使うこと。3つ目、既存のスケジューラに付け足せる設計であることです。

田中専務

投資対効果の視点で知りたいのですが、導入は大がかりですか。スイッチ側の改造や特別なNICが必要になるのですか？

AIメンター拓海

良い質問です。CASSINIの利点は既存機器をいじらずに動く点です。スイッチやNICのプロトコル変更は不要で、スケジューラ側のロジックで置き場所と時間調整を行いますから、ソフトウェア寄りの投資で効果を出せるのです。

田中専務

現場の導入で気になるのは予測が外れたときのリスクです。ジョブの時間がずれたら逆に混むことはありませんか？

AIメンター拓海

そこは設計の要です。CASSINIはジョブ間の互換性を評価するaffinity graphで安全な組合せを選び、時間ずらしも楽観的にプロファイリングして調整します。予測誤差に備えたフォールバックも用意できますから、段階的導入が可能です。

田中専務

わかりました。最後に、会議で使える短い要点を三つにまとめて教えてください。時間がないので端的にお願いします。

AIメンター拓海

大丈夫、要点は3つです。1つ目、ネットワークの通信パターンを意識してジョブを置くことで全体の完了時間が短くなる。2つ目、時間のズラしで通信フェーズを干渉させずに混雑を避けられる。3つ目、既存のスケジューラに後付け可能で、機器改修を伴わないため導入コストが抑えられる、ですよ。

田中専務

ありがとうございます。では私の言葉でまとめます。CASSINIはジョブの通信のタイミングをずらしてネットワーク渋滞を減らし、機器を変えずにソフトウェア的な調整で学習時間を短縮する仕組み、ということでよろしいですね。

連邦学習：分子からプロセスまで（FEDERATED LEARNING FROM MOLECULES TO PROCESSES: A PERSPECTIVE）