11 分で読了
1 views

xDeepServe:Huawei CloudMatrix384上のModel-as-a-Service

(xDeepServe: Model-as-a-Service on Huawei CloudMatrix384)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近うちの若手が『xDeepServe』って論文を勧めてきてまして。要するに大きなAIをどうやって安定して早く動かすかの話だと聞いたのですが、実務目線で何が変わるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、簡単に整理しますよ。要点は三つで、SuperPodという大規模装置を使った場合の実行モデルの刷新、MoE(Mixture of Experts、専門家の混合)対応、そして信頼性の工夫です。これだけで多くの運用課題が変わるんです。

田中専務

SuperPodって何ですか。うちの工場に置くような機械じゃないですよね?

AIメンター拓海

良い質問ですよ。SuperPodは数十台のNPU(Neural Processing Unit、ニューラル処理装置)を非常に高速な回線で結んだ巨大な計算クラスタです。工場で言えば、ラインを何十本も並べて一つの大きな生産ラインのように使えるものです。これにより一度に超大規模モデルを動かせるんです。

田中専務

うーん、それでxDeepServeは何を新しくしているんですか。要するに既存の方法で同じことはできないのですか。

AIメンター拓海

素晴らしい着眼点ですね!既存の仕組みはクラスタ全体を一括で管理する粗い復旧や単一プロセス中心の実行が多いのですが、xDeepServeは部品ごとに役割を分けて動かす「Transformerless(トランスフォーマーレス)」という考えを採用しています。これで部分的な故障や負荷の偏りに強くなるんです。

田中専務

部品ごとに分けると通信が増えて遅くなりませんか。それに運用は複雑になりそうで、うちのITチームが扱えるか心配です。

AIメンター拓海

その懸念は的確です。xDeepServeは高速なファブリック(接続網)を前提に設計しており、通信遅延を小さく保つ工夫を多数入れています。さらに運用面ではプリウォーム(pre-warmed pods)、DRAMプリロード、NPUフォークといった事前準備で応答性を確保し、スケーリングも自動で行えるようにしています。要点は三つです:通信を前提にした設計、事前準備で瞬時の拡張、部品単位の信頼性です。

田中専務

これって要するに、大きな機械を小さな部品ごとに分けて運転して、壊れてもそこだけ止めて直しやすくするってことですか。

AIメンター拓海

その通りですよ。まさに工場の生産ラインをモジュール化して、負荷や故障に応じて臨機応変に動かすイメージです。一緒にやれば必ずできますよ。

田中専務

運用コストや投資対効果はどう見ればいいですか。導入してからの改善がどこに効くのか、具体的に教えてください。

AIメンター拓海

良い着眼点ですね!投資対効果は三点で考えます。まず処理効率向上で同じコストでより多く処理できること、次に信頼性向上でダウンタイムが減ること、最後に柔軟性でモデル更新や実験が早く回せること。これらは売上や開発スピードに直結します。

田中専務

なるほど。最後に私の理解を整理させてください。要はxDeepServeはSuperPodのような大規模NPUクラスターで大きなMoEモデルを高速で安定して動かすために、モデルを機能ごとに分解して運用し、事前準備や細かいフェイルオーバーで可用性を保つ仕組み、ということでよろしいですか。

AIメンター拓海

素晴らしい着眼点ですね!その通りです。大丈夫、一緒にやれば必ずできますよ。会議で使える要点も後で整理しますから、安心してくださいね。

1.概要と位置づけ

xDeepServeは、Huawei CloudのCloudMatrix384 SuperPod上で大規模言語モデル(LLM)を実運用するためのサービング(serving)システムである。本稿は結論を先に述べる。xDeepServeが最も大きく変えた点は、従来の単一プロセス中心のモデル実行から、モデルの機能を分解してNPU(Neural Processing Unit、ニューラル処理装置)群上で独立実行する設計へと転換したことである。これにより、超大規模なMoE(Mixture of Experts、専門家の混合)モデルをSuperPod規模で安定かつ低遅延に運用可能とした。

まず基礎的な位置づけを説明する。CloudMatrix384は48台のサーバと384個のAscend NPUを有するスケールアップドメインであり、大量のオンチップメモリとメモリ帯域を備える。こうしたハードウェアが実用化されつつある現状で、従来の実行モデルやスケジューリングでは性能や可用性のボトルネックが顕在化する。

本研究はハードウェアのスケールアップに対応した新しいソフトウェア設計を提示する。要点はTransformerlessと呼ぶ分散アーキテクチャ、PD(prefill-decode)を含むスケジューリング設計、そして事前準備や細粒度のフォールトトレランス(fault tolerance)である。これらは単独では新規性が小さく見えるが、スケールアップ環境に統合した点が差別化要因である。

経営層に向けて端的に述べると、xDeepServeは「大きくて扱いにくいAIを、工場の生産ラインのように分解して安定稼働させ、生産性を引き上げる」ためのシステムである。投資対効果は、スループット向上、ダウンタイム削減、モデル更新の迅速化という三項目で評価できる。

本節では概要と位置づけを示した。以降は先行研究との差分、技術的中核、検証方法と成果、議論と課題、今後の方向性を順に論じる。

2.先行研究との差別化ポイント

従来の大規模モデルサービング研究は二つの方向があった。一つはクラスタ全体を一つの巨大プロセスあるいは同期型のパイプラインとして扱い、もう一つはモデル並列化や分散トレーニングに焦点を当てる研究である。これらは主に計算効率やメモリ効率を高めることに注力してきた。

xDeepServeが差別化する点は、スケールアップ型のハードウェア、具体的にはCloudMatrix384の高速ファブリックと大量のオンチップ資源を前提に、実行モデルと運用モデルの両面で設計をし直した点にある。Transformerlessという分解アーキテクチャは、Transformerモデルを注意機構(attention)、フィードフォワード(feedforward)、MoEという機能単位に分け、独立して配置・実行可能とする。

さらにxDeepServeはプリフィル(prefill)とデコード(decode)の段階を分離し、PD(prefill-decode)モードに合わせたスケジューリングを導入している。これにより、バッチ処理時の効率と逐次生成時の応答性という相反する要求を両立させている。

加えて信頼性設計も異なる。従来はクラスタ全体を再起動する粗い対策が一般的であったが、本報告はコンポーネント単位でのフェイルオーバー、専門家(expert)ランクの動的再構成、トークン単位の再計算といった細粒度の耐障害性を実装している。これが運用継続性に直結する。

総じて、先行研究は計算単位やアルゴリズムに注目する傾向が強かったのに対し、本研究はハードウェア特性を踏まえたソフトウェア構成と運用ルールを同時に提示した点で独自性を持つ。

3.中核となる技術的要素

中核要素は大きく四つある。第一にTransformerlessアーキテクチャであり、Transformerモデルを注意、フィードフォワード、MoE(Mixture of Experts、専門家の混合)といった機能ユニットに分解する点である。これは、機能単位ごとに最適なハードウェア上で実行することを可能にする。

第二に低レベルの通信ライブラリと高速ファブリックの活用である。CloudMatrix384は多層の高速接続を備え、これを前提に同期やデータ移動の戦略を設計している。通信コストを前提にしたアルゴリズム設計が性能を支える。

第三にスケジューリングとデプロイの柔軟性である。xDeepServeはprefill-decode(PD)モードを分散・同居の両方でサポートし、ワークロードに応じて最適な配置を選択する。これによりバッチ重視とレイテンシ重視の双方に対応が可能となる。

第四にシステム最適化であり、プリウォーム(pre-warmed pods)、DRAMプリロード、NPUフォークなどの手法を用いて瞬時のスケールアウトやスケールインを実現する。これらは運用上のユーザー体験を改善し、SLA(Service Level Agreement、サービス水準合意)に寄与する。

これらを組み合わせることで、xDeepServeは単なる並列化を超えた、ハードウェアと運用を一体化した実装を提供している。技術的説明は抽象と具体を往還しつつ、実務上の導入点を意識して整理すべきである。

4.有効性の検証方法と成果

検証は実際のサービス運用を想定したベンチマークとプロダクションデプロイの二軸で行われている。実験ではDeepSeek、Kimi、Qwenといった大規模モデルを対象に、各NPU当たりのトークン処理速度や応答時間(time-per-output-token、TPOT)を計測した。

報告される代表的な成果は、Ascend NPUチップ当たり2400トークン/秒という処理率を達成しつつ、TPOTのSLAを満たしたことである。さらにスケールアウトの迅速性も示され、数十インスタンスへの拡張を秒単位で行えることが確認されている。

信頼性評価においては、ハードウェア障害やネットワーク断が発生した場合でも、部品単位のフェイルオーバーや選択的なトークン再計算により可用性とスループットが維持されることを示した。これは大規模MoE運用で特に重要な結果である。

ただし評価はCloudMatrix384上での結果に依存するため、異なるネットワーク特性やNPU構成を持つ環境への一般化には追加検証が必要である。実証済みの指標は運用効果の推定に有用だが、導入判断では自社環境での試算が不可欠である。

結論として、xDeepServeはスケールアップ型ハードウェアの特性を活かしつつ、実用的なスループットと可用性を示した点で有効性が立証されている。

5.研究を巡る議論と課題

本研究は多くの利点を示す一方で、検討すべき課題も残す。第一にハードウェア依存性である。CloudMatrix384のような高速なファブリックと大量のNPUが前提であり、これが整備されていない環境では同様の効果が得られるかは不明である。

第二に運用面の複雑さである。コンポーネント単位のデプロイや動的再構成は柔軟性を生むが、運用ポリシーや監視の設計が高度になる。中小企業が導入する場合はマネージドな運用支援が必要になる可能性が高い。

第三にモデル設計との整合性である。Transformerlessの分解は多くのモデルで有効だが、すべてのアーキテクチャにそのまま適用できるわけではない。特にMoEのような専門家ルーティングに依存する設計は、モデル側の工夫が不可欠である。

第四にコスト対効果の精密評価である。高性能ハードウェア投資とその運用を勘案した投資対効果は、業種やワークロードによって大きく異なる。導入前に試算とPoC(Proof of Concept)を行うことが望ましい。

以上より、xDeepServeは有望だが、自社導入の前には環境整備、運用支援、モデル適合性の検討という現実的課題を解決する必要がある。

6.今後の調査・学習の方向性

今後の研究と実務的検討は三方向に進むべきである。第一にハードウェア多様性への適応であり、より一般的なクラウドやオンプレミス環境でも同等の効果を得るための抽象化と最適化が必要である。これにより普及の障壁を下げることができる。

第二に運用の簡素化と自動化である。現行の細粒度制御をより高レベルのポリシーやマネージドサービスで隠蔽し、中小企業でも利用可能な運用モデルを設計する必要がある。これが普及の鍵となる。

第三にモデル・システム協調の設計である。MoEやその他の大規模モデル特性を踏まえた最適な分解手法やルーティング戦略を研究し、性能と可用性の両立を図ることが求められる。学術と産業の両面での連携が重要である。

最後に実務者への教育と評価指標の整備が必要だ。経営判断のための投資対効果指標やPoCの評価設計を標準化することで、導入可否の判断がしやすくなる。これが実社会での活用を加速する。

検索に使える英語キーワード:xDeepServe, CloudMatrix384, SuperPod, Mixture of Experts, MoE, Transformerless, NPU, Ascend NPU, Model-as-a-Service

会議で使えるフレーズ集

「xDeepServeはSuperPodのようなスケールアップ環境で、モデルを機能単位に分解して運用することで可用性とスループットを同時に改善します。」

「導入判断は、ハードウェアの可用性、運用体制、モデルとの適合性を踏まえたPoCで行うべきです。」

「期待効果は処理効率の向上、ダウンタイム削減、モデル更新の迅速化の三点です。」

引用元

XDS Team, “xDeepServe: Model-as-a-Service on Huawei CloudMatrix384,” arXiv preprint arXiv:2508.02520v4, 2025.

論文研究シリーズ
前の記事
MRIにおける前立腺がん検出のための人工知能のスケーリング:人口ベースのスクリーニングと一次診断への展開
(Study Protocol) — Scaling Artificial Intelligence for Prostate Cancer Detection on MRI towards Population-Based Screening and Primary Diagnosis in a Global, Multiethnic Population (Study Protocol)
次の記事
3D血管生成のための再帰的変分オートエンコーダ
(Recursive Variational Autoencoders for 3D Blood Vessel Generative Modeling)
関連記事
粒度ボール表現による不均衡部分ラベル学習の革新
(Granular Ball Representation for Imbalanced Partial Label Learning)
フェアコンプ:ユビキタス環境における公平性とロバストネスの議論
(FairComp: Workshop on Fairness and Robustness in Machine Learning for Ubiquitous Computing)
非線形多様体による次元削減と領域分割
(Nonlinear-manifold reduced order models with domain decomposition)
医療時系列のための知識強化条件付き補完
(Knowledge Enhanced Conditional Imputation for Healthcare Time-series)
推論時スケーリングの確率的最適性
(Probabilistic Optimality for Inference-time Scaling)
非ランバート面に強い単眼深度推定へのアプローチ
(Towards Robust Monocular Depth Estimation in Non-Lambertian Surfaces)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む