2025.02.28

論文研究

4 分で読了

2 views

Theory of Mind Benchmarks are Broken for Large Language Models

（大規模言語モデルに対する心の理論ベンチマークは壊れている）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近社員から「Theory of Mindってベンチマークが重要」って言われましてね。正直、用語からして尻込みしているのですが、うちの業務に関係あるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！まず結論を短く言うと、論文は「今の多くのベンチマークは人のような一貫した理解を測れておらず、誤解を生む」と指摘しています。要点を3つにまとめると、第一に測っているのは表面的な予測能力、第二に相手に適応する力が欠けている、第三に実務で役立つかは別問題、ですよ。

田中専務

なるほど。要するに、テストで良い点を取っていても実際のやり取りで使えるかは別だと。現場投入すると失敗しそうで、投資対効果の判断が難しいと心配です。

AIメンター拓海

素晴らしい着眼点ですね！その不安は正当です。論文は「literal theory of mind（直訳：文字通りの心の理論）＝他者の行動を予測する力」と「functional theory of mind（機能的な心の理論）＝新しい相手に適応して行動できる力」を区別しています。具体的には、テストは前者ばかり測り、後者を直接試していないのです。

田中専務

これって要するに、LLMがテストで「あたかも理解している」ように見えても、現場で違う相手に出会うと対応できないということ？

AIメンター拓海

その通りですよ。素晴らしい着眼点ですね！要点を3つで言うと、第一にベンチマークは人間テストから派生したものが多く、AIにそのまま当てはめている。第二にAIは問いに対して文脈依存で答えを変えるが、それが一貫した「過程」の証明にならない。第三に実務で必要なのは新しい相手に合わせて行動を変えられる能力、つまりfunctional theory of mindです。

田中専務

具体的にはどういうテストが足りないんですか。うちの営業や現場にどう関係するか、実感を持ちたいのですが。

AIメンター拓海

素晴らしい着眼点ですね！論文は、相手が変わったときにモデルがどう適応するかを直接測る「相互作用的」な評価が必要だと述べています。営業の例で言えば、顧客Aと顧客Bでは期待する対応が違う。ベンチマークが顧客A向けの問だけなら、顧客Bに対する適応力は測れません。つまり、本当に使えるかの判断には相手変化への適応試験が不可欠です。

田中専務

投資対効果の観点から言うと、どういう指標を見れば導入判断ができるんでしょう。ベンチマークスコアだけに頼るのは危険と。

AIメンター拓海

素晴らしい着眼点ですね！要点を3つで言うと、第一にベンチマークスコアの変動でなく、導入後の「適応率」を測ること。第二に実データでの継続的な検証（small-scale A/Bテスト）を回すこと。第三にセルフモニタリングや簡易なファインチューニングでユーザー別の振る舞いを評価することが現実的です。大丈夫、一緒にやれば必ずできますよ。

田中専務

例えば社内チャットボットなら、顧客応対と社内ナレッジ検索で振る舞いが違うはずです。導入後にどれだけその差を埋められるかが勝負、という理解で良いですか。

AIメンター拓海

素晴らしい着眼点ですね！まさにその通りです。導入後の適応力を評価するために小さな実験を重ね、モデルが新しい対話者にどう反応するかを継続的に測る運用設計が必要ですよ。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。要はベンチマークの数字だけで判断するなと。私の言葉で言うと、「見かけの得点」と「実際に役立つ適応性」を分けて評価する、ということですね。

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

Theory of Mind Benchmarks are Broken for Large Language Models

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

Theory of Mind Benchmarks are Broken for Large Language Models

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

監修者

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ