2025.10.19

論文研究

12 分で読了

1 views

WHAM: World-grounded Humans with Accurate 3D Motion

（世界基準で正確な3Dヒューマンモーションの再構築）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近の論文で『WHAM』っていう名前を見かけました。うちの現場でカメラで人の動きを取って改善したいんですが、これって現場で使えるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！WHAMは動画から人の3D動作を『世界座標系』で正確に再構築する手法です。要点を3つで言うと、2Dとピクセル情報の統合、カメラ運動の利用、接地（足の接触）を意識した軌跡補正です。大丈夫、一緒に分かりやすく説明しますよ。

田中専務

それはありがたい。うちの悩みは、動いているカメラで撮った映像だと、人が滑って見えたり、どこを歩いているか分からなくなる点なんです。これが直るなら投資の価値があるか検討したい。

AIメンター拓海

その滑りは典型的な問題です。多くの手法が『カメラ座標系』で人を推定するため、カメラが動くとグローバルな軌跡が不安定になります。WHAMはカメラの角速度を利用してグローバル軌跡を復元し、さらに足の接地を意識して補正するので滑りを抑えられるんですよ。

田中専務

これって要するに、カメラが動いても人の『世界での位置』がズレないように計算し直す、ということですか？

AIメンター拓海

その通りです！大きく言えば三つの工夫で動きを世界座標に固定できます。第一に2D関節点とピクセル特徴を統合して3D動作を精密に復元する点、第二にSLAMで推定したカメラの変化量を利用する点、第三に足接地を考慮して軌跡を補正する点です。これで現場でも自然な動きになりますよ。

田中専務

なるほど。で、現場に導入する際のコストや運用はどうでしょうか。うちはクラウドを触るのも怖がる現場ですし、重い計算は避けたい。

AIメンター拓海

良い視点です。WHAMは高精度な最適化パイプラインに頼らず、学習ベースで高速に推定する設計になっています。ですからリアルタイム性は出しやすく、オンデバイスや軽量なサーバーでの実装も見込めます。導入は段階的に可能ですし、まずはデモ運用から始められますよ。

田中専務

導入後にうまくいかなかった場合の評価や、安全上の懸念はどう見ればよいですか。現場の人に負担がかかると困ります。

AIメンター拓海

懸念は的確です。評価は既存のベンチマークで精度を比較し、現場では少人数での試験運用とヒューマン・イン・ザ・ループで安全性やプライバシーを確認します。要点は三つ、まず小さく始めること、次に透明性を保つこと、最後に現場負担を測ることです。大丈夫、一緒に運用設計できますよ。

田中専務

分かりました。先生、要点を自分の言葉でまとめると、WHAMは『カメラが動いても正しい世界座標で人の3D動作を高速に出す仕組み』で、接地を意識して足の滑りを抑える。まずは小さく試して効果と負担を確かめる、ということですね。

1.概要と位置づけ

結論を先に述べると、WHAMは動画から得た人物の運動を『世界座標系』で高精度に復元する点で従来手法を大きく変えた。従来の多くの手法はカメラ座標系での推定にとどまり、カメラが動く環境では軌跡のずれや足の滑り（foot sliding）を生じさせていた。WHAMは2Dキーポイント情報と画像ピクセル特徴を統合し、カメラの角速度情報と接地推定を組み合わせることで、動画から素早くかつ正確に世界基準の3D動作を復元できる。ビジネス上の意義は明瞭で、移動カメラで撮影する現場観察やスポーツ解析、AR/VRの身体同期など、実用領域での適用可能性を大幅に広げる点にある。現場でのリアルタイム性や導入コストを考慮しつつ、まずは導入効果を限定的に検証する運用設計が有効である。

基礎から説明すると、3Dヒューマンポーズとシェイプ（HPS: Human Pose and Shape）の推定は、単一画像の手法が大量の学習データで高精度化した一方、動画ベースの手法は意外にも精度で劣る状況が存在した。これは動画特有の時間的文脈を十分に活かせていない学習手法の限界や、カメラ運動を無視した座標系の不整合に起因する。WHAMはモーションキャプチャデータで学習した2D→3Dのリフト（lifting）能力をベースに、映像のピクセル情報を融合してフレームごとの精度を補完する。さらに、SLAM（Simultaneous Localization and Mapping）由来のカメラ角速度を使って人物のグローバルな移動を推定し、結果として世界座標への整合が取れる。

応用面では、移動カメラでの撮影が一般化した現場で特に有用である。従来はカメラを固定しなければ正確な軌跡計測が難しかったが、WHAMによってカメラ追従型の計測でも高い妥当性が期待できる。これにより、現場監査やラインの動作観察、作業者の動作解析などで、カメラ設置の制約が緩和される。投資対効果の観点では、カメラインフラを活かした新たなデータ取得が可能になり、既存のビデオ資産から価値を引き出せる点で導入メリットがある。まずはパイロット導入で効果を数値化するのが現実的である。

技術的位置づけを一言で言えば、『動画ベースのHPS推定を世界座標に還元し、接地を考慮した実運用向けの精度を達成した』点である。これにより、動くカメラ環境下でのヒューマンモーション復元が実用レベルに近づいた。次節で示すように、先行研究は部分的な解を与えてきたが、WHAMは複数の問題を同時に扱う設計になっている。現場導入を検討する経営判断としては、技術的な利点を短期的な試験運用で検証する構えが適切である。

2.先行研究との差別化ポイント

WHAMの最大の差別化は三点である。第一に、ほとんどの既存手法がカメラ座標系に依存しているのに対し、WHAMは人物動作をグローバルな世界座標系に復元する。第二に、従来のグローバル化アプローチは平坦地面仮定や最適化ベースでの高負荷処理に頼りがちで、結果として足の滑りや計算コストの問題が残っていた。第三に、GHAMは2Dキーポイントだけでなく、ピクセルレベルの特徴も統合しているため、単一フレーム精度と時間的整合性の両方を高めている点が新しい。これらの組み合わせにより、移動カメラ下でも自然な動作再現が可能になった。

先行研究の多くは、単フレーム手法の豊富な学習データセットによって局所精度を高めてきたが、時間的文脈を十分に取り込めていない例が散見される。動画の時間的連続性を活かすには、運動パターンと視覚特徴の両方を一貫して学習する必要がある。WHAMはモーションキャプチャ由来の時系列学習と映像特徴の融合でその穴を埋めている。結果として、動画ベースでありながら単フレームを上回る安定性を示すことができた。

また、グローバル座標への復元ではカメラ自己位置推定が鍵となるが、WHAMはSLAM由来の角速度情報を巧みに利用して人物軌跡を推定する。これは単独の人間運動モデルだけでは得られない利点であり、カメラ動作と人体運動を同時に解くことで世界座標系での整合性を保つ。さらに、接地（foot contact）を明示的に復元することで足の滑りを抑える工夫を持ち、この点が実運用での視認的妥当性向上に寄与している。

ビジネス上の差は明確で、移動カメラで撮影する現場でのデータ活用が容易になる点が企業にとっての競争優位を生む。固定カメラ前提の解析では得られなかった柔軟な撮影設計が可能になり、導入壁を下げる。従って、現場観察や品質監査、教育用途など、既存の映像資産を活かす投資戦略にとって有用な技術である。

3.中核となる技術的要素

WHAMの技術は三つの柱で構成される。第一の柱は2Dキーポイントと映像ピクセル特徴の統合である。具体的には、時系列の2Dキーポイント列を3Dにリフトする学習モジュールに、同一フレームの画像特徴を結合して精密さを高める。これにより、単純に2Dから3Dへ上げるだけでは失われる視覚的整合性を補完できる。

第二の柱はカメラ運動の利用である。WHAMはSLAM（Simultaneous Localization and Mapping: 同時位置推定と地図生成）由来のカメラ角速度を入力として用い、カメラ座標系と世界座標系の差分を推定する。これによって人物がカメラによって見かけ上移動しているのか、実際に世界を移動しているのかを分離できる。現場で手持ちやドローンなど移動体カメラを使う場合に特に有効である。

第三の柱は接地（contact-aware）軌跡補正である。つまり足が地面に接している瞬間を推定し、その情報を軌跡復元に取り込むことで足滑りを防ぐ。現場での自然な歩行や立ち止まり、階段昇降といった動作でも世界座標での一貫性が保たれるよう設計されている。これは視覚的な自然さと物理的整合性の両立に直結する。

実装面では、計算効率を考えた学習ベースの推定により、従来の最適化中心の高負荷パイプラインに比べて実用性が高い。モデルはモーションキャプチャデータで学習し、映像特徴で精密化するためデータ効率も確保されている。結果として、現場導入時における処理遅延やハードウェア要件を抑えることが期待できる。

4.有効性の検証方法と成果

WHAMは複数のin-the-wildベンチマークで評価され、既存の動画ベース手法や単フレーム手法と比較して一貫して優れた性能を示している。評価は軌跡再現の誤差、足滑りの発生頻度、時間的スムーズネスなど複数の観点で行われた。結果として、WHAMはグローバル軌跡の一貫性や接地表現において特に優位性を持つことが示された。

検証は定量評価と視覚評価の両面で設計されている。定量的には地上真値（ground truth）と比較して位置誤差や姿勢誤差を算出し、視覚的には人間の目で見て自然に見えるかを確認した。定量評価の改善は、現場での実用性に直結する指標であり、WHAMは特に移動カメラ環境での誤差低減が顕著だった。

また、シナリオとして階段の昇降や不均一な地形など非平坦な条件でも評価が行われ、接地を考慮する補正が有効であることが示された。これは平坦地仮定に頼る従来法の弱点を直接的に克服する証左である。さらに、推論速度も既存の最適化ベース手法より有利であり、実運用での採用可能性が高い。

ビジネスの観点から見ると、これらの成果は現場での目視検査の代替や補助、動作分析による改善提案の精度向上へと直結する。有効性の確認は導入決定の重要な根拠となるため、社内でのパイロット評価設計は慎重に行うべきである。まずは限定的なラインや工程で効果を数値化することを推奨する。

5.研究を巡る議論と課題

WHAMは多くの課題を解決する一方で、まだ残る論点も明確である。第一に、学習データのバイアスや多様性が結果に影響するため、異なる民族、服装、作業環境などへの一般化性の検証が必要である。学習ベースの利点は速度だが、学習データに依存する落とし穴もある。

第二に、SLAM由来のカメラ角速度の品質に依存する点である。屋外や特徴の乏しい環境ではSLAM推定が不安定になることがあり、その場合は軌跡復元の精度が低下する可能性がある。したがってカメラや撮影手順の標準化、あるいは補助的なセンサーの併用が現場で求められる。

第三にプライバシーと倫理の問題がある。人物の精密な動作再構成は個人特定や行動監視につながり得るため、データ利用の範囲と保存期間、匿名化の仕組みを明確にする必要がある。事前に社内ルールや労使協議を整備することが重要である。

最後に、モデルの軽量化とオンデバイス推論の実装は今後の改良領域である。現在の設計でも従来法より実用的であるが、製造現場のようにネットワークが脆弱な環境では完全なオンデバイス化が望まれる。研究開発としてはモデル圧縮や効率化が引き続き重要な課題である。

6.今後の調査・学習の方向性

今後の研究と現場導入に向けて、まずはデータ多様性の強化が必要である。具体的には多様な撮影条件、被写体、服装、照明条件での学習データを増やし、モデルの一般化能力を高めることが求められる。これにより導入時の現場側の追加学習コストを低減できる。

次に、SLAMや慣性センサーとの統合の精度向上である。カメラ角速度だけでなく、IMU（Inertial Measurement Unit、慣性計測装置）などのセンサーを組み合わせることでカメラ運動推定の安定性を高められる。現場でのセンサ設置要件とコストのバランスを取りながら検討する必要がある。

第三に、プライバシー保護と説明可能性の向上に注力すべきである。動作データをどの程度保存し、どのように利用するかを透明化し、分析結果の解釈を現場担当者に分かりやすく提示する仕組みが必要だ。これにより現場の受容性を高められる。

最後に、ビジネス導入のロードマップとしては、短期では限定的パイロット、中期では工程横展開、長期ではオンデバイス運用や他システムとの連携を目指すのが現実的である。技術検証を迅速に行い、効果が確認でき次第スケールする計画が望ましい。検索に使える英語キーワードは ‘WHAM’, ‘world-grounded human motion’, ‘3D human pose and shape’, ‘contact-aware trajectory’, ‘video-based HPS’ である。

会議で使えるフレーズ集

『WHAMは移動カメラ下で人の3D軌跡を世界座標で復元し、足の滑りを抑えることで現場観察の精度を高める技術です』と端的に説明すると伝わりやすい。『まずはパイロットで効果を定量化し、運用負荷とデータプライバシーを評価しましょう』と続ければ実務的である。技術的な懸念には『SLAMやIMUとの統合で安定性を確保する必要がある』と述べ、投資判断としては『小規模実証でROIを見極める』を提案すると良い。

S. Shin et al., “WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion,” arXiv preprint arXiv:2312.07531v2, 2024.

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

WHAM: World-grounded Humans with Accurate 3D Motion

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

WHAM: World-grounded Humans with Accurate 3D Motion

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ