異種チップレット上での層間スケジューリング空間探索(Inter-Layer Scheduling Space Exploration for Multi-model Inference on Heterogeneous Chiplets)

田中専務

拓海先生、最近うちの部下が「マルチモデルや大きなモデルを扱うならチップを分けるべきだ」と言い出して困っております。実際に何が変わるのか、本当に投資に見合うのかが分かりません。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、一緒に整理すれば必ず見えてきますよ。今回扱う論文は、重たい複数モデルを一つのプロセッサで回す代わりに、異なる特性の小さなチップ(チップレット)を組み合わせて性能と効率を上げる提案をしていますよ。

田中専務

チップを分けると配線ややり取りでむしろ遅くならないのですか。投資対効果の観点で、何が期待できるのでしょうか?

AIメンター拓海

良い疑問です。要点を三つにまとめますね。第一に、異種チップレット(heterogeneous chiplets)は各チップを得意分野に特化させ、全体の効率を上げることができるのです。第二に、層間パイプライン(inter-layer pipelining)という技術でチップ間のやり取りを重ね合わせ、待ち時間を減らせます。第三に、論文ではスケジューラで最適な割り当てとパイプラインを探索し、単一モノリシックアクセラレータに対してスループットとエネルギー効率を大きく改善できると示していますよ。

田中専務

なるほど。これって要するに、得意分野ごとに小さな工場を置いて、作業を分担させることで全体の生産性を上げるということですか?

AIメンター拓海

その通りですよ。素晴らしい着眼点ですね!一つの大工場で何でもやるより、工程に応じた専門工場を並べ、工程間の受け渡しをうまく重ねれば、全体の稼働率が上がり、無駄な待ちが減りますよ。

田中専務

現場導入の負担はどうでしょう。今の設備を全部入れ替えるような話なら現実的ではありません。段階的な移行は可能ですか?

AIメンター拓海

大丈夫です。論文の着眼点は段階的導入を想定できますよ。要は既存のアクセラレータに対して、特定の処理をチップレット化して割り当てるスケジューラを導入するだけで、最初は小さな投資で効果を試せます。将来的にモデルが大きくなれば、段階的にチップレットを増やしていけるのです。

田中専務

それは安心しました。で、具体的にどれくらいの改善が期待できるのですか?数字で言ってください。

AIメンター拓海

素晴らしい着眼点ですね!論文の実験では、GPT-2という大きめの言語モデル(GPT-2、LLM: large language model、大規模言語モデル)とResNet-50という画像モデル(ResNet-50、画像分類モデル)を同時に走らせるワークロードで、4チップレット構成を想定したときに、スループットが最大2.2倍、エネルギー効率が最大1.9倍になったと報告していますよ。

田中専務

分かりました。では最後に、私の方で上司や社長に説明するために、要点を自分の言葉で整理してみます。チップを得意分野で分けて、層ごとの作業を重ねて流す仕組みをスケジューラで最適化すれば、効率と性能が上がる、投資は段階的で済む、ということですね。

AIメンター拓海

素晴らしいまとめですよ、田中専務!大丈夫、一緒にやれば必ずできますよ。会議での説明用フレーズも用意しておきますので安心してくださいね。


1.概要と位置づけ

結論から述べると、本研究は異種チップレット(Multi-chip module (MCM)(マルチチップモジュール)を構成する異なる特性の小さなプロセッシングユニット)を組み合わせ、層間スケジューリングとパイプラインを最適化することで、マルチモデルの推論におけるスループットとエネルギー効率を大幅に改善するという点で既存設計を変える可能性がある。特に大規模言語モデル(large language model (LLM)(大規模言語モデル))のように計算負荷が高いモデル群を同時に扱う状況で、有効性が示されている点が重要である。

背景として、従来のアプローチは単一のモノリシックなアクセラレータで全てのモデル処理を賄うことを前提としていた。だがモデルが巨大化し種類も増える現状では、汎用化が逆に非効率を生む。そこで本研究は、異なるデータフロー設計を持つチップレットを組み合わせ、各レイヤーを得意なチップレットに割り当て、さらに層間で処理を重ねることでデータ移動と待ち時間を削減するという方針を提示している。

本稿の示す最も大きな変化は、ハードウェア設計の考え方を「モノリシック最適」から「異種並列最適」へ転換する点である。つまり、単に高性能な一片のチップを作るのではなく、複数の専門チップを協調させることで、全体として高性能かつ省電力を達成するという考え方である。これはクラウドやエッジの実装戦略に直結する。

本研究は実装指針だけでなく、探索空間を効率的に評価するスケジューリングフレームワークとコストモデルの組み合わせを提示する点で実務に近い示唆を与える。特にオンチップメモリやチップ間通信のコストを明示的に扱う点は現場での評価に役立つ。

要するに、重たい複数モデルを扱う状況で、設計の枠組みを変えれば、既存の単一アクセラレータに比べて大きな改善が期待できるというのが本研究の要点である。

2.先行研究との差別化ポイント

従来研究は主に二つの方向に分かれている。一つは単一アクセラレータ上でのデータフロー最適化、もう一つはチップレット化のハードウェア実装技術である。しかし前者はワークロードの多様化に弱く、後者はチップ間通信やスケジューリングの扱いが不十分である場合が多い。

本研究はこれらを統合的に扱う点で差別化される。具体的には、異種チップレットそれぞれに異なる「データフロー」設計(output-stationary (OS)(出力固定データフロー)、weight-stationary (WS)(重み固定データフロー)など)を採用し、レイヤーごとに最適なチップレットを割り当てる点が特徴である。そしてその上で、層間パイプラインを含むスケジュール空間を系統的に探索するフレームワークを実装している。

先行研究が部分的に扱っていた問題、例えばオンチップメモリの容量やオフチップ通信のコストを、実行時のスケジューラ評価に反映させる点も差別化の要因である。本論文はMAESTRO(MAESTRO、アクセラレータコストモデル)ベースのコストモデルを拡張し、異種MCMに適用している。

また、評価対象として同時に複数の大規模モデルを動かすマルチモデルワークロードを設定した点も実務的である。多くの先行研究は単一モデル評価に留まっていたため、実運用での有効性が不明瞭だった。

総じて、本研究はハードウェア設計・コストモデル・スケジューリング探索を一体化して実用的な示唆を与える点で先行研究と一線を画する。

3.中核となる技術的要素

本稿の中核は三つの技術的要素である。第一に異種チップレット(heterogeneous chiplets(異種チップレット))を用いたMCM(Multi-chip module (MCM)(マルチチップモジュール))設計。第二にレイヤー割当(chiplet assignment)と層間パイプライン(inter-layer pipelining(層間パイプライン))を組み合わせたスケジューリング探索。第三にMAESTROベースのコストモデルを拡張して異種環境を評価可能にした点である。

異種チップレットでは、各チップに異なるデータフローを持たせることで、例えば畳み込みに強いデータフローや行列演算に強いデータフローを使い分けられる。これにより、ワークロードの種類に応じてチップを使い分け、無駄なデータ移動と計算のミスマッチを減らすことが可能である。

スケジューリング面では二段階の手法を採る。第一段階で各レイヤーの好適なチップレット候補を割り当て、第二段階でRA-treeなどの表現を用いて層間パイプラインの探索を行う。この探索はヒューリスティックを用いて実行時間を抑えつつ実用的な解を得る方針である。

コストモデルはオンチップバッファサイズ、チップ間通信、オフチップ通信といった実際のオーバーヘッドを考慮する。論文ではグローバルバッファを10MBに設定したデフォルト設定を示し、パラメータを変えた評価も可能にしている。

これら要素の組み合わせにより、単体での最適化を越えた全体最適化が達成される設計哲学が本稿の本質である。

4.有効性の検証方法と成果

検証は実機ではなくシミュレーション環境上で行われている。評価ワークロードとしてGPT-2(GPT-2、LLM: large language model、大規模言語モデル)とResNet-50(ResNet-50、画像分類モデル)を同時に実行するシナリオを採用しており、4チップレット構成を対象としてスケジューリングフレームワークを適用した。

性能評価にはMAESTROベースのコストモデルを用い、各データフローやチップ配置、層間パイプラインの組み合わせを比較している。比較対象としては、最適化されたoutput-stationary (OS)(出力固定データフロー)を持つ単一モノリシックアクセラレータを用いた。

結果は明確である。論文が示す通り、提案する異種MCMとスケジューラによってスループットは最大で2.2倍、エネルギー効率は最大で1.9倍に達した。これは単純なスケールアップでは達成しにくい改善であり、アーキテクチャ設計の変更が実運用上の指標に直結することを示す。

検証は限定的なワークロードと構成に依存するため、万能の解ではないが、同様のモデル混在環境では有望なアプローチであることを示した。パラメータ感度や異なるチップレット数での評価は今後の課題とされている。

実務的な含意としては、まずは小規模なプロトタイプで効果を測定し、モデルロードや通信帯域といったボトルネックに応じて段階的に導入を進めることが推奨される。

5.研究を巡る議論と課題

本研究は有望である一方、いくつかの現実論が残る。第一にシミュレーション評価中心であり、実チップレット間の遅延や製造変動、熱設計など実ハードウェアに由来する要因の影響が十分に評価されていない点である。実機評価が次のステップとして不可欠である。

第二にスケジューリング探索の計算コストと、実行時の適応性の問題である。ワークロードが変動する現場では、静的に決めたスケジュールが最適であり続けるとは限らない。動的リスケジューリングやオンライン学習との統合が求められるだろう。

第三に経済性の検討である。チップレット化による設計・テスト・製造のコストがどの程度回収可能か、特に小規模な企業やエッジ用途での採算性を示す追加検証が必要である。投資対効果の観点から段階的導入プランが現実的である。

第四にセキュリティや信頼性の観点で、複数の異種チップレットの協調が新たな攻撃面を生む可能性がある。通信経路やデータ分割の扱いに注意が必要である。これも今後の研究テーマである。

総じて、本提案は設計の新たな方向性を示すが、実用化に向けた工程はまだ残っている。短期的にはプロトタイプでの実測、長期的には自動化された動的スケジューリングが鍵となる。

6.今後の調査・学習の方向性

今後は三つの調査軸が重要である。第一に実機プロトタイピングによる実測データの取得である。これは通信遅延や熱、実装上の配線コストを正確に把握するために必要である。第二に動的ワークロードに対するオンラインスケジューリングの研究である。現場では推論レイテンシやリクエストの変動が常に存在するため、適応的な手法が求められる。

第三にコスト面の詳細な分析である。製造コスト、テストコスト、運用コストを含めた投資対効果分析を行い、段階的導入シナリオを設計することが現実的な次の一歩である。また、異種チップレット設計の標準化やソフトウェアスタックの整備も並行して進める必要がある。

学習面では、ハードウェアアーキテクトだけでなく、システムエンジニアや事業側の関係者がこの設計哲学を理解することが重要である。ビジネス判断としてどのタイミングでチップレット化に投資するかを判断できる知見が求められる。

検索に使える英語キーワード: heterogeneous chiplets, multi-chip module, inter-layer pipelining, scheduling for multi-model inference, MAESTRO accelerator model

最後に、会議で使えるフレーズを本文末に用意した。導入判断をするときの参考にしてほしい。

会議で使えるフレーズ集

「この提案は、重たいモデルが混在する運用でスループットとエネルギー効率を同時に改善する可能性がある」

「まずは小さなプロトタイプで効果を検証し、効果が確認できれば段階的に拡張する方針を取りたい」

「投資対効果の評価軸としては性能改善だけでなく、運用コストと製造コストも含めた回収期間を示す必要がある」


引用元

M. Odema, H. Kwon, M. A. Al Faruque, “Inter-Layer Scheduling Space Exploration for Multi-model Inference on Heterogeneous Chiplets,” arXiv:2312.09401v1, 2023.

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む