SOCIAL GENOME：多モーダルモデルの基盤的社会的推論能力（SOCIAL GENOME: Grounded Social Reasoning Abilities of Multimodal Models）

田中専務

拓海先生、最近部署で『SOCIAL GENOME』という論文の話が出てきまして、部下が「対人対応に使えるAIの基礎になる」と言うのですが、正直ピンと来ません。経営判断の材料として何が変わるのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！大丈夫、順を追って噛み砕きますよ。要点は簡単で、SOCIAL GENOMEは「AIが人の会話やジェスチャーを根拠とした説明を作れるか」を細かく測るための評価基盤なんです。

田中専務

「根拠とした説明」……具体的にはどの程度のことをAIがやれるようになる話ですか。うちの現場は高齢社員も多く、AIが勝手に解釈して判断するのは怖いのです。

AIメンター拓海

いい点に敏感ですね。ここで重要なのは「根拠が見えること」で、AIがただ答えるだけでなく、どの視覚的手がかりや話し方の特徴、外部知識を理由にしたかを説明する点です。説明があると導入側の安心感と検証可能性が上がりますよ。

田中専務

なるほど。つまりうちで使ったときに「なぜその判断をしたのか」がわかるということですね。これって要するに社員や管理職が判断を検証できるということ？

AIメンター拓海

その通りです！大丈夫、一緒にやれば必ずできますよ。もう少し噛み砕くと、要点は三つです。1) AIが映像・音声・言葉の手がかりを参照して推論する、2) 参照した根拠を文章として出す、3) 動作や会話の背景にある外部知識も参照できる、です。

田中専務

外部知識というのは具体的にどういうものですか。現場でいうと製品の仕様や過去トラブルの履歴に当たるのでしょうか。

AIメンター拓海

まさにそうです。外部知識（contextual knowledge）は現場のルールや業界常識、過去の事例などで、AIはそれを参照すると推論の精度と妥当性が高まります。人間が補助するための断片的な情報を繋ぐイメージです。

田中専務

技術的にどこが新しいのか教えてください。うちが投資する価値があるのか、時間と費用対効果を見立てたいのです。

AIメンター拓海

素晴らしい着眼点ですね！SOCIAL GENOMEの貢献は評価基盤の提供にあります。具体的には、272本の現場的な対話映像と1,486件の人手で作られた推論トレースを用いて、AIの説明能力を定量的に評価できる点が評価されます。これにより弱点が可視化され、改善策の投資先が明確になりますよ。

田中専務

なるほど。要するに、まず評価でどこがダメかを見つけてから、改善に投資するということですね。最後に、これを導入するときの現場のハードルは？

AIメンター拓海

懸念は的確です。導入ハードルは三つあり、1) 映像や音声の品質確保、2) 現場知識の構造化と外部知識の整備、3) 説明を検証する運用体制の整備です。だが順番に取り組めば段階的に効果を得られます。大丈夫、やればできますよ。

田中専務

わかりました。自分の言葉で言うと、SOCIAL GENOMEはAIが人間の会話や動作を根拠づけて説明できるかを試す基盤で、まずは評価して弱点を見つけ、次に現場データと知識を整備して段階的に導入する、ということですね。ありがとうございます、拓海先生。

潜在行動モデルは実際に何を学んでいるのか？（What Do Latent Action Models Actually Learn?）