Perlmutter上のGPUワークロードに関する縦断分析(Longitudinal Analysis of GPU Workloads on Perlmutter)

田中専務

拓海先生、今日はGPUの論文について教えてください。うちの若手が「GPUの利用状況を分析すべきだ」と言うのですが、そもそも何を見ればいいのか分かりません。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、順を追って説明しますよ。要点は三つだけです:何を測るか、どう分析するか、そしてその結果で何が分かるか、ですよ。

田中専務

何を測るか、ですか。GPUってグラフィック用の装置ですよね。仕事の現場とどう関係するんですか?

AIメンター拓海

GPU(Graphics Processing Unit、グラフィックス処理装置)は最近、AIや科学計算で使われる大型の計算資源です。比喩を使えば、GPUは工場のラインで働く作業員のようなもので、どれだけ稼働しているかを数値で見ると、無駄や偏りが見えてきますよ。

田中専務

なるほど。で、論文では具体的にどんな指標を見ているのですか?現場に持ち帰れる話にしてほしいのですが。

AIメンター拓海

具体的にはGPU_UTIL(GPU utilization、GPU利用率)とSM_ACTV(Streaming Multiprocessor activity、SM稼働率)やメモリ利用などを10秒間隔で収集しています。これは現場で言えば機械の稼働ログを細かく取るのと同じですから、改善点が見つかりますよ。

田中専務

データはちゃんと取れているものを前提ですか。うちの現場はログがところどころ抜けていまして……それでも意味あるんでしょうか。

AIメンター拓海

良い懸念ですね。論文ではフィルタリングをしていて、短時間のジョブや物理的にあり得ない値(GPU_UTILが100%超など)は除外しています。現場ではまずデータ品質を担保する小さなルールを作ることが先決です。

田中専務

分析すると現場ではどんな気づきが得られますか。投資対効果の観点で分かりやすく教えてください。

AIメンター拓海

要点三つで説明します。第一に、同一ジョブ内でGPU間の使用差(空間的アンバランス)があると、資源を無駄にしている可能性が高い。第二に、時間的に利用が波打つ(時間的アンバランス)場合は計算フェーズのばらつきが原因で、スケジューリング改善で効率が上がる。第三に、AI系と非AI系で利用パターンが異なるため、用途ごとの最適化で効果が出る、ですよ。

田中専務

これって要するに、同じラインで働かせている作業員がバラバラに手を休めたり別の仕事をしているから、全体として効率が落ちているということ?

AIメンター拓海

正にそのとおりです!その比喩は素晴らしい着眼点ですね。だから調べるべきは『誰が・いつ・どれだけ働いているか』を表す指標で、そこからスケジューリングや割当を改善できますよ。

田中専務

導入に当たってのハードルは何でしょう。現場の工数やコスト面の話を聞きたいです。

AIメンター拓海

現実的には三つの投資が必要です。ログ収集の設定、データクリーニングの運用、そして解析結果を現場のスケジューラや運用ルールへ反映するプロセスです。初期は小さく始めて、見える化で効果が出れば段階的に投資するのが合理的です。

田中専務

最後にもう一度確認します。要するに、この論文を使えば『どのジョブが無駄にGPUを占有しているか』『時間帯ごとの使い方のムラ』が分かって、スケジューリングと割当を見直せる、ということですね。

AIメンター拓海

その通りです。小さなメトリクスの蓄積と分析で、大きな効率改善が見えてきますよ。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。自分の言葉で言うと、『詳細な稼働ログを基に、GPUのムダや偏りを見つけて、割当とスケジュールを直せば効率が上がる』ということですね。ありがとうございました。

1.概要と位置づけ

結論を先に述べる。本研究は大規模GPUクラスタの稼働ログを縦断的に解析し、ジョブ単位での空間的・時間的アンバランス(GPU間や時間帯での利用ムラ)を定量化した点で実務上の価値を示したものである。これは単なる利用率の報告に留まらず、運用改善やスケジューリング方針の再設計に直接つながる実用的な知見を与える点で重要である。

背景として、GPU(Graphics Processing Unit、GPU)はAI計算や科学技術計算で事実上の標準となっており、その効率的運用がクラウドコストやバッチ処理の実行時間に直結する。多くのデータセンターは様々なハードウェアカウンタを提供しているが、それらを縦断的に収集し、実際のジョブ挙動に結びつけて分析した研究は限られていた。

本研究ではPerlmutterというリーダーシップクラスのスーパーコンピュータ上で、LDMS(Lightweight Distributed Metric Service)とDCGM(Data Center GPU Manager)を用いて10秒間隔のカウンタを取得し、約4か月分・約34万件のジョブデータを用いた。実際の運用環境に即した大規模データでの実証が行われている点が位置づけ上の特徴である。

経営視点でが注目すべき点は、解析から得られる知見がそのまま運用ルールの改修や投資判断に結び付けられることである。例えば、空間的アンバランスの是正は既存ハードの稼働率向上を意味し、新規投資の回避につながる。

以上を踏まえ、本稿はGPU稼働の可視化と改善の橋渡しをする実践的研究として位置づけられる。これにより、IT資産の最適運用という観点で即効性のある施策立案が可能になる。

2.先行研究との差別化ポイント

先行研究は多くが単発の利用率報告やシミュレーションに留まっていたが、本研究は実運用環境で得られたハードウェアカウンタを時間軸・空間軸で細かく解析している点で差別化される。これは台帳的なログから、行動パターンを抽出する点で価値がある。

既往の分析ではGPU利用率(GPU_UTIL)やメモリ利用の単純統計が中心であったが、本研究はSM_ACTV(Streaming Multiprocessor activity、SM稼働率)などコア寄りのカウンタを含め、計算フェーズの影響を明示的に評価している点が新しい。言い換えれば、単なる稼働率の断面ではなく、内部動作の時系列変化を解析している。

また、ジョブ単位での空間的アンバランス(GPU間の偏り)と時間的アンバランス(ジョブ中での稼働変動)を併せて評価し、それぞれが異なる原因で生じることを示した点で先行研究と明確に異なる。経営判断では、原因が異なれば対策も異なるため、ここが差別化の本質である。

実務上の差別化ポイントは、得られた指標を機械学習によるアプリケーションのフィンガープリントや異常検知に組み込める点だ。つまり解析結果がそのまま次の自動化ステップの素材になる。

総じて、本研究は単なる観測を超え、運用改善と自動化への橋渡しを可能にする実証的プラットフォーム提供という点で先行研究と一線を画している。

3.中核となる技術的要素

データ収集はLDMS(Lightweight Distributed Metric Service、軽量分散メトリクスサービス)とDCGM(Data Center GPU Manager、GPU監視プラグイン)で行っている。これらは各ノードからハードウェアカウンタを10秒間隔で取得する仕組みであり、工場の巡回検針に似た連続観測を実現する。

用いられた主なカウンタはGPU_UTIL(GPU利用率)、SM_ACTV(SM稼働率)、FP16_ACTV/FP32_ACTV/FP64_ACTV(各精度の演算稼働率)やメモリ利用などである。これらはそれぞれ計算作業の重さやメモリ依存度を示す指標であり、ビジネスで言えば作業負荷の種類と量を示す生産管理の指標に相当する。

解析面ではジョブ単位での時系列集計と、ジョブ内のGPU間比較を行っている。空間的アンバランスはジョブが複数GPUを用いる際の個々のGPU利用差を意味し、時間的アンバランスはジョブの経過に伴う指標のブレを意味する。これらを定量化するメトリクス設計が技術の中核である。

データ前処理では異常値の除去や短時間ジョブの排除が行われている。具体的にはGPU_UTILが物理的にあり得ない値を示すケースや、3分未満の短いジョブを除外して分析の信頼性を担保している。これは品質管理の基本プロセスである。

以上により、収集→前処理→時空間解析というパイプラインが構築され、得られた指標は運用改善や機械学習基盤への応用が可能になる。

4.有効性の検証方法と成果

検証には約4か月分、具体的には2023年8月16日から12月13日までのデータを用い、約345,154件のジョブを対象とした。DCGMプラグインは10秒サンプリングでカウンタを収集しており、膨大な時系列データに基づく頑健な解析が可能である。

成果としては、ジョブ間およびジョブ内での利用ムラが頻繁に観測されること、特に一部のジョブで顕著な空間的アンバランスが存在したことが示されている。これはGPUの割当やスケジューリングを調整することで、稼働率向上が期待できることを意味する。

さらに、SM_ACTVの時間的アンバランスがGPU_UTILの時間的アンバランスと強く関連しており、計算フェーズの切り替えが利用ムラの主要因であることが示唆された。つまり計算の特性に応じたスケジューリング戦略が有効である。

また、AI/ML系のジョブと非AI系のジョブで利用パターンが異なることが確認され、用途別の最適化余地があることが示された。これにより、用途ごとのキュー設計や割当ポリシーを見直す材料が得られた。

最後に、本研究は得られた指標を将来的に機械学習に組み込み、アプリケーションのフィンガープリント化や異常検知に応用する計画を示しており、実運用での即効的な改善と継続的な自動化の両面で有効性を主張している。

5.研究を巡る議論と課題

議論点の一つはデータ品質とフィルタリングの影響である。短時間ジョブやスタッフによるテストジョブを除外する判断は妥当だが、現場によっては実運用を反映しないデータ排除になり得るため、除外ルールの設計には注意が必要である。

次に、観測カウンタの解釈性である。FP16/FP32/FP64といった演算精度の稼働率は計算の性質を示す有益な指標だが、複合的なジョブやライブラリの実装差によって値の意味合いが変わるため、指標の標準化や補助情報の収集が必要である。

また、空間的アンバランスを是正するためのスケジューリング変更は、副作用としてジョブの待ち時間増加を招く可能性がある。そのため、効率化のメリットとユーザーの満足度というトレードオフを評価する実装上の検討が求められる。

計算リソース以外の指標、例えば電力やエネルギー消費のカウンタを含めた評価も課題として挙げられている。これらを加えることで、単なる稼働率最適化を越えたコスト最小化が可能になる。

総じて、技術的な有効性は確認されているが、実運用に落とし込むにはデータ品質管理、指標解釈の標準化、ポリシー設計の評価といった実装上の課題解決が不可欠である。

6.今後の調査・学習の方向性

今後は本稿で設計したメトリクスを機械学習モデルに組み込み、アプリケーションのフィンガープリント化(signature)や異常検知に利用する道が有望である。これにより、異常な利用や不適切な割当を自動で検出できるようになる。

さらに、電力消費やエネルギー効率のカウンタを追加して解析することで、コスト視点での最適化が可能になる。経営判断では単位時間当たりの計算性能だけでなく、消費電力といった観点も重要である。

運用面では、まず小規模なパイロットを行いデータ収集と品質管理のルールを確立することが推奨される。その後、得られたメトリクスを使ってスケジューラのポリシーを段階的に変更し、効果を測定する運用サイクルを作るべきである。

学術的にはカウンタの標準化や指標の普遍性を検証する研究が必要である。多様な環境で同様の手法が再現できるかを確認することで、業界全体での導入が容易になる。

最後に、キーワード検索で関連文献を探す際は次の英語キーワードを使うと良い:GPU utilization, SM activity, perlmutter GPU workloads, LDMS DCGM, GPU scheduling。

会議で使えるフレーズ集

「我々はGPUの空間的アンバランスを可視化し、既存リソースでの効率改善余地を検証できます。」

「まず小さなログ改善から始めて、効果が出れば段階的にスケジューリングを見直しましょう。」

「SM稼働率に基づく分析は、計算フェーズに合わせた割当方針の設計に直結します。」

「短期ジョブやテストジョブの除外ルールを定義して、分析の信頼性を担保しましょう。」

Onur Cankur, Brian Austin, Abhinav Bhatele, “Longitudinal Analysis of GPU Workloads on Perlmutter,” arXiv preprint arXiv:2502.18680v1, 2025.

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む