論文研究
2025.03.17
2025.12.30

自己認知と行動は一貫しているか：大規模言語モデルの人格を検証する（Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model’s Personality）

田中専務

拓海先生、お忙しいところ恐縮です。最近、うちの若手が「LLMを使えば業務が変わる」と騒ぐのですが、そもそも「このモデルは自分がどんな性格か分かっている」のか、説得力がなくて困っています。要するに、AIが言うことと実際の振る舞いが一致しているのか、その辺りが知りたいのです。

AIメンター拓海

素晴らしい着眼点ですね！その問いは、まさに最近の研究が取り組んでいるテーマです。結論を先に言うと、現在の大規模言語モデル、英語ではLarge Language Models（LLMs）というのですが、これらは自己申告する“性格”と実際の応答傾向が完全には一致しないことが多いのです。大丈夫、一緒に要点を三つに整理して掴みましょう。

田中専務

要点三つと言われますと、まず投資対効果の観点で知りたいのです。うちが導入する価値が本当にあるのか、宣伝どおりの「人格的な振る舞い」を期待していいのかが気になります。現場の担当が勝手に設定を変えても業務に支障が出ないかも心配です。

AIメンター拓海

素晴らしい着眼点ですね！投資対効果、実運用の安定性、そして期待との乖離の三点で見ます。まず、現在のLLMsは大量の文章データを学習して応答を生成するだけで、人間のような「自己意識」を持っているわけではありません。したがって「性格」を自己申告させても、その申告と実際の応答行動がズレることがあるのです。

田中専務

それは要するに、モデルが「自分は親切だ」と言っても、実際のやり取りでは冷たい答えをすることがあるという理解でよろしいですか？現場が期待している振る舞いと違うとトラブルになります。

AIメンター拓海

素晴らしい着眼点ですね！まさにその通りです。言い換えれば、自己申告（self-knowledge）と実際の行動傾向（action tendency）が一致しないケースが観測されています。ここで重要なのは原因を分けて考えることです、学習データの偏り、プロンプトの設計、そして評価方法の不備、この三つを別々に検討すると実務判断がしやすくなりますよ。

田中専務

学習データの偏りやプロンプトという言葉は聞いたことがありますが、具体的にはどういうリスクになりますか？現場ですぐに検証できるものなら安心ですが、検証コストが高いなら慎重にならざるを得ません。

AIメンター拓海

素晴らしい着眼点ですね！検証は三段階で簡単に始められます。一つ目に代表的な業務シナリオをいくつか用意してモデルに応答させ、申告された「性格」との齟齬を確認します。二つ目に極端な質問や誤誘導を与えて脆弱性を測り、三つ目に運用時のガードレール設計を行えば、リスクは実用レベルで管理可能です。

田中専務

それだと現場の担当者でもできそうですか。うちには詳しい人がいないので、外注するか否かの判断材料にしたいのです。コストと効果のバランスをどう見ればよいでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！要点を三つで整理します。まず、最小限のPoC（Proof of Concept）を内部で回すことは可能であること、次に外注は迅速化と専門性補填という価値をもたらすこと、最後に本番運用前に必ず運用ルールと評価指標を定義すること。この三点が満たせれば投資対効果は見えてきますよ。

田中専務

なるほど。最後に確認なのですが、研究ではどのように「性格」と「行動」を比べているのですか。測定方法が信頼できるなら、社内の評価方法に取り入れたいのです。

AIメンター拓海

素晴らしい着眼点ですね！研究では従来の自己申告型の質問票（たとえばBig Five Personality Traits、略称Big Five（ビッグファイブ）＝五大性格特性や、Myers–Briggs Type Indicator、略称MBTI＝マイヤーズ・ブリッグス性格指標）と、実際の行動に近い状況設定問（現実的な振る舞いを問う質問）を用いて比較しています。結果として、申告と行動の乖離が観測され、現実的なテストの必要性が示されています。

田中専務

分かりました。ここまで聞いて、私が現場に指示するならどう言えばいいか整理しておきます。まず小さな実験をして、期待と現実の差を数値で出す。次に外部支援を使うかは、その結果を見て判断する。最後に運用ルールを明確にしてから本格導入する、という流れでよろしいですね。

AIメンター拓海

素晴らしい着眼点ですね！まさにその通りです。要点は三つ、PoCで検証すること、外部は短期集中で使うこと、運用ルールを厳格にすることです。大丈夫、一緒に設計すれば必ずできますよ。

田中専務

よし、それなら社内の会議でこの順序で説明します。私の言葉で要点を言い直すと、まずは小さく試して差を測り、外注は結果を見て意思決定し、運用ルールで品質を担保する、ということです。ありがとうございました、拓海先生。

1. 概要と位置づけ

結論を先に述べる。本研究は、大規模言語モデルであるLarge Language Models（LLMs、大規模言語モデル）が自己申告する性格（self-knowledge、自己認知）と、実際に示す応答傾向（action tendency、行動傾向）が一致するかを体系的に検証した点で、実務的な示唆を与えるものである。本件は、単なる学術的好奇心にとどまらず、業務用チャットボットや顧客対応自動化など実運用に直結するため、企業の導入判断に直接影響を及ぼす。

まず重要なのは、LLMs自体は統計的に言語を生成する仕組みであり、人間の心理的自己認知を本質的に持つわけではないという前提である。従来の心理学で使われる自己申告型の尺度、たとえばBig Five Personality Traits（Big Five、五大性格特性）やMyers–Briggs Type Indicator（MBTI、マイヤーズ・ブリッグス性格指標）をそのままLLMsに適用すると、表面的には整合するケースもある一方で、現実の行動シミュレーションで乖離が生じることが本研究で明らかになっている。

本研究の位置づけは、AIを扱う企業が「期待する振る舞い」と「実際の振る舞い」を定量的に比較するための方法論的基盤を提供する点にある。経営判断の観点では、単なる機能評価や性能指標だけでなく、モデルがどの程度一貫して期待に沿う応答を示すのかを評価することが重要である。これにより導入前のリスク評価と運用設計がより現実的になる。

実務的には、自己申告と行動の乖離が示すのは「仕様書上の特性」と「実運用での振る舞い」は異なる可能性があるという点である。特に顧客対応や意思決定支援の場面では、申告された性格がそのまま有用性を保証しないため、検証プロセスを導入前に組み込む必要がある。

総じて、本研究はLLMsを実務に組み込む局面で要求される評価軸を明確にし、導入判断のためのチェックリストを作るための出発点を提示している。経営層は、性能だけでなく一貫性という観点を評価基準に加えるべきである。

2. 先行研究との差別化ポイント

先行研究の多くは、LLMsが生成するテキストの流暢さやタスク性能に注目してきた。これに対し本研究は、心理学で用いられる自己申告尺度の妥当性そのものをLLMsに適用した場合に、どの程度信頼できるかという問題に踏み込んでいる点で差別化される。つまり、単なる性能評価に留まらず、人格表現の「意味」を問い直している。

既往の研究では、LLMsに対して人格を模したプロンプトを与えることで一貫したスタイルを出す試みがあったが、多くは表面的な文体一致にとどまった。本研究は行動傾向を測るための現実的な状況設定問を設計し、申告と行動の一致度を実証的に比較している点が新しい。ここにより、従来のプロンプト工学だけでは説明できないズレが浮かび上がる。

加えて、本研究は複数の代表的LLMsを比較対象に含めており、モデル間のばらつきや共通する弱点を明示している点が先行研究との差である。これにより、単一モデルの観察に基づく短絡的な結論を避け、より一般化可能な示唆を提供している。

経営判断に直結する差別化ポイントは、研究が「評価方法の実務適用可能性」にまで視野を広げている点である。単に学術的な妥当性を問うだけでなく、現場での試験運用や評価基準設計に応用可能なツールとしての価値が示されているため、導入判断の材料として使える。

したがって、先行研究との差分は方法論の実用化志向であり、これは経営層にとって意思決定を支える実践的な情報となる。導入時の評価基準作成にこの研究の視点を取り入れることが有益である。

3. 中核となる技術的要素

まず本研究で鍵となる概念を整理する。Large Language Models（LLMs、大規模言語モデル）は大量のテキストから統計的に次の単語を予測することで文章を生成する仕組みである。自己申告（self-knowledge、自己認知）というのは、モデルに「あなたはどんな性格ですか」と尋ねた際の自己記述であり、行動傾向（action tendency、行動傾向）は実際の状況を模した問いに対する応答から推測される性格的特徴である。

研究の技術的要点は、従来の心理学的尺度をどのように「問い」に翻訳するか、そしてその問いに対する応答をどのように計量化するかにある。Big Five（五大性格特性）やMBTI（マイヤーズ–ブリッグス性格指標）といった尺度を、単なる選択式質問ではなく実務に即した行動シナリオに落とし込み、モデルの応答をスコア化して比較している点が中核である。

もう一つの技術要素は、プロンプト設計の扱いである。プロンプトとはモデルに対する入力文のことで、これを微妙に変えると応答が大きく変わる。したがって自己申告と行動傾向の差がプロンプト依存かどうかを検証するための対照実験が重要になり、研究はこの点に注意深く対処している。

さらにモデル比較のために複数のLLMsを用い、モデルごとの一貫性指標を算出している。これにより、単一モデルの特性に基づく誤った一般化を避け、より堅牢な評価が可能になる。簡潔に言えば、問いの設計、応答のスコアリング、そしてモデル間比較の三点が技術の核である。

短い補足として、本手法はブラックボックスな生成メカニズムを直接改変するのではなく、評価と運用設計でリスクを管理するアプローチである点を指摘しておく。

4. 有効性の検証方法と成果

検証方法は実践的である。まず学術的に用いられる人格尺度を基準にしつつ、現実の業務場面を想定した行動シナリオを数十問設計した。これらのシナリオに対するモデルの応答を収集し、自己申告結果と照合することで一致度を定量化した。比較には複数の代表的LLMsを用い、モデル間のばらつきも評価対象とした。

成果としては、自己申告と行動傾向の間に有意な乖離が存在することが示された。具体的には、表面的な自己記述では高い整合性を示すことがある一方で、状況依存の問いに対しては矛盾した応答が生じやすいという傾向が観察された。これは、モデルが文脈情報や誘導に対して過敏に反応するためであると考えられる。

これにより、実務的な評価のためには単純な自己申告だけでなく、行動シミュレーションを含めた複合的な検証が必要であるという結論が得られた。運用面では、導入前のPoCでシナリオ検証を義務化することが推奨される。これにより期待と現実のギャップを事前に把握できる。

また、モデルごとの特性差に着目することで、用途に応じたモデル選定の判断材料が得られた。すなわち、顧客対応のような高い一貫性が求められる用途では、自己申告と行動の一致度が高いモデルを優先するべきであるという実務的示唆を導いた。

短い補足として、評価指標は定期的に見直す必要があり、運用後のモニタリング体制が重要であることも合わせて強調される。

5. 研究を巡る議論と課題

まず議論されるべきは因果の解釈である。自己申告と行動の乖離が観測されるとしても、それがモデルの本質的限界によるのか、評価方法の不備によるのかを慎重に切り分ける必要がある。研究は初期的な仮説と検証を提示したに過ぎず、因果関係の確定にはさらなる実験設計が必要である。

次にスケールとコストの問題である。大規模モデルの検証は計算リソースを要し、社内で実施する場合の負担は無視できない。したがって経営判断としては、外部専門家を短期的に活用して効率的にPoCを回すか、社内で小規模に始めて段階的に拡張するかを選択する必要がある。

また倫理的な論点も残る。モデルが示す行動傾向に基づく判断は利用者に誤解を与える可能性があり、説明責任（explainability、説明可能性）や透明性の確保が求められる。これらは規制対応や顧客信頼に直結するため、技術的な対策だけでなくガバナンス設計も不可欠である。

さらに、研究の外的妥当性、つまり実際の業務での再現性が課題である。実務では多様なユーザ問い合わせや特殊事例が存在するため、評価シナリオの網羅性をどう担保するかが重要である。ここは現場と協働したシナリオ設計が鍵を握る。

総括すると、技術的な改善余地、評価コストの課題、倫理とガバナンスの問題という三つの主要課題に対する戦略的対応が今後の焦点である。これらを経営判断に織り込むことが導入成功の前提となる。

6. 今後の調査・学習の方向性

今後の研究と実務の両輪では、まず評価手法の標準化が必要である。自己申告型尺度と行動シミュレーションを組み合わせた評価プロトコルを確立し、業界標準として共有することで導入時の比較可能性を高めるべきである。これにより企業はモデル選定とリスク評価を合理的に行える。

次に、長期的にはモデルそのものの訓練プロセスにおいて人格的一貫性を促す手法の研究が期待される。ただし現段階では説明したように、即時的な解決策は期待できないため、運用設計と評価でリスクを管理することが現実的である。学習の方向性としては、対話履歴に基づく長期的整合性の学習や、応答の保守性を高める制約付けが考えられる。

加えて、実務側ではPoCを通じた知見蓄積とナレッジ共有が重要である。社内で得られた評価データを匿名化して業界で共有する仕組みがあれば、個別企業のコストを下げつつ全体の健全性が向上する可能性がある。これは共同での評価基盤構築へとつながるだろう。

最後に、検索に使える英語キーワードを挙げる。LLM personality, self-knowledge action congruence, personality questionnaire validity, Big Five LLM, MBTI LLM, behavioral tendency evaluation。これらを用いて文献探索を行えば、本研究周辺の議論を迅速に把握できる。

総じて、当面は評価と運用で差を埋め、長期的にはモデル改良と業界間の協調によって信頼性を高めることが望まれる。

会議で使えるフレーズ集

「まずは小さなPoCで期待と実際の差を数値化しましょう。」

「外注は短期集中で使い結果を見てから本格投資を判断します。」

「運用前に評価基準とガードレールを明確に定義しておく必要があります。」

「自己申告だけで採用判断をするのはリスクが高いので、行動指標の確認を義務化します。」

Y. Ai et al., “Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model’s Personality,” arXiv preprint arXiv:2402.14679v2, 2024.

CATEGORY

自己認知と行動は一貫しているか：大規模言語モデルの人格を検証する（Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model’s Personality）

1. 概要と位置づけ

2. 先行研究との差別化ポイント

3. 中核となる技術的要素

4. 有効性の検証方法と成果

5. 研究を巡る議論と課題

6. 今後の調査・学習の方向性

会議で使えるフレーズ集

いいね:

関連

CATEGORY

1. 概要と位置づけ

2. 先行研究との差別化ポイント

3. 中核となる技術的要素

4. 有効性の検証方法と成果

5. 研究を巡る議論と課題

6. 今後の調査・学習の方向性

会議で使えるフレーズ集

共有:

いいね:

関連

関連する記事

コンピュータ聴覚：タスク特化型機械学習から基盤モデルへ（Computer Audition: From Task-Specific Machine Learning to Foundation Models）

SLOWFAST-VGEN：行動駆動の長尺動画生成のためのスローファスト学習（SLOWFAST-VGEN: SLOW-FAST LEARNING FOR ACTION-DRIVEN LONG VIDEO GENERATION）

皮質—視床回路におけるマルチヘッド自己注意（Multihead self-attention in cortico-thalamic circuits）

LLMによる進化的最適化を用いた表形式データの自動特徴エンジニアリング（LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers）

過剰パラメータ化された重回帰のハイパーカーブ当てはめ（Overparameterized Multiple Linear Regression as Hyper-Curve Fitting）

SCaLAR NITKによる法務向け無監督QAと多段階要約の提案（SCaLAR NITK at SemEval-2024 Task 5: Towards Unsupervised Question Answering system with Multi-level Summarization for Legal Text）

AI Business Reviewをもっと見る