LLMは「性格」を持つのか?(Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models)

田中専務

拓海先生、最近部下から「AIに性格を持たせられる」と聞いたのですが、そんなこと本当にあるのですか。投資対効果が分からなくて困っています。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、順を追って整理しましょう。結論から言うと、LLM(Large Language Model、大規模言語モデル)は「人間の性格に似た振る舞い」を示すことがあり、MBTI(Myers-Briggs Type Indicator、性格類型指標)を粗い評価軸として使う研究が進んでいますよ。

田中専務

それは面白い。しかし現場で使うとなると「本当に役に立つのか」「現場社員が混乱するのでは」と不安です。要するに、うちの業務で使うべきかどうか、どう判断すれば良いのですか?

AIメンター拓海

素晴らしい着眼点ですね!判断基準は簡潔に三つです。1) 何を評価したいか(正確性か応対の一貫性か)、2) その評価にMBTIのような人間志向の指標が本当に寄与するか、3) 導入後のガバナンスと費用対効果です。順に説明していけば、大丈夫、一緒に整理できますよ。

田中専務

専門用語が多くて恐いのですが、まずMBTIってそもそも何ですか?それをAIに当てるのは無理筋ではないですか。

AIメンター拓海

素晴らしい着眼点ですね!MBTI(Myers-Briggs Type Indicator、性格類型指標)は人の思考や好みを四つの軸で分類するツールです。例えるなら、社員の対応スタイルをA4用紙の4つのチェック項目で表すようなものです。AIに当てるのは厳密ではないが、振る舞いの傾向を掴む手がかりにはなるんです。

田中専務

なるほど。で、具体的にどうやって評価するのですか。これって要するにプロンプトを変えると性格も変えられるということ?

AIメンター拓海

素晴らしい着眼点ですね!要点は三つです。1) LLM(Large Language Model、大規模言語モデル)は入力(プロンプト)に強く反応するため、設計次第で出力の傾向は変わる。2) 研究ではMBTI風の質問を投げ、モデルがどのタイプに近いかを測った。3) 完全な人間の性格ではなく、応答の傾向を計測する『粗い指標』として有用である、という結論です。

田中専務

投資対効果の観点で言うと、うちで得られる利点は何ですか。現場で役立つ具体例をひとつ挙げてもらえますか。

AIメンター拓海

素晴らしい着眼点ですね!実用例なら、顧客対応の一貫性管理が挙げられます。例えば、ある顧客対応AIに「慎重で論理的な応答(INTJに近い)」を意図的に促すと、重要案件で曖昧さを避ける回答が増える。これにより現場の手戻りが減り、教育コストの削減につながる場合がありますよ。

田中専務

分かりました。最後に、導入の判断材料を一言で言うと何を重視すれば良いですか。

AIメンター拓海

素晴らしい着眼点ですね!結論は三語で表せます。目的、検証、統制です。目的を明確にし、小さく試して効果を測り、運用ルールを決める。これだけで導入リスクは大幅に下がりますよ。大丈夫、一緒にやれば必ずできます。

田中専務

ありがとうございます。要するに、MBTIはAIの「性格」を厳密に測るものではなく、応答の傾向をつかむための試験道具であり、目的を明確にして小さく試してみるのが大事、ということですね。自分の言葉で言うと、目的を決めて、試して、統制する——これで行きます。


1. 概要と位置づけ

結論を先に述べる。本研究は、LLM(Large Language Model、大規模言語モデル)が示す応答傾向を評価するために、MBTI(Myers-Briggs Type Indicator、性格類型指標)を借用して粗くモデルの「性格」を定量化しようとする試みである。最も重要な点は、MBTIがLLMの性能評価の代替指標ではなく、プレトライアル的な行動傾向の把握ツールとして有効であることを示した点である。

なぜ重要か。AIを実運用に入れる際、単に精度や速度だけでなく、対外的な応対の一貫性や意思決定の傾向を管理する必要がある。ここでMBTI風の測定を導入すると、応答の「傾向」を設計段階で把握できるようになり、現場の教育や品質保証に役立つ。

この位置づけは基礎研究と実用化の中間にある。本研究はLLMの学習データやプロンプト設計が応答の傾向にどう影響するかを系統的に調べ、実用観点での評価軸としての可能性を示した。だが、MBTI自体が心理学的に議論の余地があるため、あくまで補助的指標である点は強調されるべきである。

経営判断としての含意は明確である。モデルの応答傾向を事前に把握しておけば、顧客対応や意思決定支援ツールとしての適合性を短期間で評価できる。したがって、リスクと効果の見積もりが容易になり、導入判断の精度が上がる。

要するに、本研究は「性格」という概念を厳密に復元するのではなく、LLMの振る舞いを事業運用に役立つ形で可視化するツール群を提示した点で、実務者にとって意味がある。

2. 先行研究との差別化ポイント

先行研究の多くはLLMの性能を言語生成の正確性や推論能力で測ってきた。ここで使う用語を整理する。LLM(Large Language Model、大規模言語モデル)は大量テキストから確率的に次の語を生成する仕組みである。従来は事実照合や文書要約などのタスク指標が中心であった。

差別化ポイントは三つある。第一に、心理学的尺度(MBTI)を評価軸として採用した点である。第二に、プロンプト操作(prompt engineering、プロンプト設計)がモデルの「性格的傾向」をどの程度変えられるかを系統的に検証した点である。第三に、学習データの違いが応答傾向に与える影響を比較した点である。

実務的には、これらの差分が導入設計に直結する。たとえば顧客窓口では「協調的」な応答を強めるプロンプト設計が有効であり、内部意思決定支援では「分析的」な応答を優先するようなカスタマイズが可能である。こうした運用面での示唆は先行研究には乏しかった。

ただし本研究はMBTIを完全な人格評価と見なしていない。MBTIはもともと人間の性格を四つの二分軸で単純化するツールであり、そのまま機械に適用する際の解釈余地を慎重に扱っている点が先行研究との差別化だ。

結論として、学術的な厳密性と実務的有用性のバランスを取ることで、現場導入に直結する評価方法の橋渡しを試みた点が本研究の独自性である。

3. 中核となる技術的要素

本研究の中核は三つの要素である。まずMBTI(Myers-Briggs Type Indicator、性格類型指標)をLLMに対して設問形式で適用し、各軸でのモデルの回答傾向をスコア化する手法。これは人間に実施するMBTIと同様の質問セットをモデルに投げる実験である。

次にプロンプトエンジニアリング(prompt engineering、プロンプト設計)である。プロンプトとはモデルに与える指示文のことで、設計次第で回答のトーンや重点を変えられる。研究ではプロンプトの細かな言い回しでMBTIスコアが変動することを示した。

三つ目は学習データの影響評価である。学習データの性質がモデルの傾向に与えるバイアスを分析し、特定のドメインデータを与えることで応答傾向が偏る事例を示した。これにより、運用時にデータ選定が重要であることが技術的に裏付けられる。

これらを組み合わせることで、モデルの「応答性格」を設計・検証・制御する一連のプロセスが可能になる。重要なのはこれがブラックボックスを解く万能薬ではなく、現場要件に合わせたチューニング手法である点だ。

最後に一言。技術は単なる道具であり、評価軸の選び方と運用設計が成果に直結する。技術要素の理解は、事業判断を裏打ちするための基礎である。

4. 有効性の検証方法と成果

検証方法は実験的かつ比較的直截である。MBTI形式の質問セットを複数のLLMに投げ、モデルごとの回答をスコアリングしてタイプ分類を行った。さらにプロンプトの変更や追加データの学習を通じてスコアの変動を追跡した。

成果として、本研究は幾つかの示唆を与えた。第一に、LLMは一定の応答傾向を示し、MBTI風の分類で一貫したタイプに収束することがあった。第二に、プロンプトの工夫でその傾向をある程度操作可能であり、用途に応じたチューニングが現実的であることを示した。第三に、学習データの偏りが応答傾向に影響を与えるため、データ選定が重要であると確認された。

ただし限界も明確である。MBTI自体の信頼性や、LLMの内部状態が人間の心理と同等に解釈できるかは保証されない。つまり、本検証は応答傾向の測定であり、人格の同一視は慎むべきである。

実務上の評価指標としては、MBTI風測定は迅速なスクリーニング手法として有用である。短期間で複数モデルを比較し、顧客対応や内部支援の適合性を判断するための一次的な判断材料となる。

総じて、有効性は『粗いが有用』である。リスク管理と組み合わせることで、導入の初期段階における意思決定に貢献する。

5. 研究を巡る議論と課題

まず倫理と解釈の課題がある。MBTIを機械に適用することは、人間の心理測定ツールを機械に拡張することを意味し、誤解や過信を招く可能性がある。したがって解釈の際は「応答傾向の指標」という限定的な前提を明示する必要がある。

次に評価の再現性と標準化の問題である。MBTI風の質問セットやスコアリング方法、プロンプトの正確な文面が結果に敏感であるため、運用で使う場合は測定プロトコルを標準化し、外部監査可能な形にする必要がある。

さらに技術的制約として、LLMの内部表現が人間の認知プロセスと本質的に異なる点を忘れてはならない。モデルの回答は学習データと確率的生成に基づくものであり、人間の性格とは異なる生成メカニズムを持つ。

加えてガバナンス面の課題がある。応答傾向をビジネスルールに組み込む際には透明性、説明責任、ユーザ同意などのルール設計が必要で、これらは法律や社内規程と整合させる必要がある。

結論的に言えば、MBTIを援用することは有用だが、解釈と運用に関するルール作りを怠ると誤用リスクが高い。経営判断は技術的示唆だけでなく、ガバナンス設計を同時に評価すべきである。

6. 今後の調査・学習の方向性

今後は三つの方向で深化が必要である。第一に測定手法の標準化とベンチマーク化である。具体的には質問セット、スコアリング方法、検証データを公開・共有して再現性を高めることだ。これによりビジネスでの比較が可能になる。

第二に、プロンプト設計と微調整(fine-tuning、微調整)の効果の定量化である。プロンプトで変わる程度と、実データを追加学習した場合の変化を比較することで、どの手法を採るべきか明確化できる。

第三に、用途別の運用ガイドライン作成である。顧客対応、内部意思決定、教育支援など用途ごとに望ましい応答傾向を定義し、それに合わせた評価基準と監査プロセスを整えるべきである。

研究面では、MBTI以外の心理尺度や行動指標との比較研究も有益である。複数の尺度を比較することで、どの指標が実務上有効かをより精緻に判断できる。

最終的に目指すべきは、技術的理解と運用ガバナンスを両輪として回すことである。これにより、AIの導入はリスク管理された形で事業価値を生み出すものになる。

検索に使える英語キーワード

LLM, MBTI, prompt engineering, model personality, model alignment, fine-tuning

会議で使えるフレーズ集

「目的を明確にして小さく試し、統制を決めてから拡大しましょう。」

「MBTIは人格の証明ではなく、応答傾向のスクリーニング指標です。」

「まずはパイロットで効果とコストを測定してから本格導入を判断しましょう。」


引用元

K. Pan, Y. Zeng, “Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models,” arXiv preprint arXiv:2307.16180v1, 2023.

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む