人間と大規模言語モデルは創造性をどう評価するか — How do Humans and Language Models Reason About Creativity?

田中専務

拓海さん、最近うちの部下が「AIでアイデアの良し悪しを判定できます」って言い出しましてね。投資対効果を考えると、本当に任せて大丈夫なのか、そもそも何を基準にAIが判断しているのか、よく分からないんです。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、まずは結論だけお伝えしますと、この論文は「人間と大規模言語モデル(Large Language Models, LLMs)は創造性の評価で重視する側面が異なる」ことを示しています。要点を3つで整理すると、評価の基準の違い、評価過程の説明性、そして例示の与え方で評価が変わる、です。大丈夫、一緒に見ていきましょう。

田中専務

それは興味深いですね。具体的に「重視する側面の違い」って、どんなことを指すんですか。現場では「斬新さ」と「実現可能性」を両方見ますが、AIはどちらを見ているのか。

AIメンター拓海

いい質問です!この論文は評価を細かく分けています。具体的には「remoteness(遠さ:日常の発想からどれだけ離れているか)」「uncommonness(希少性:その発想の珍しさ)」「cleverness(巧妙さ)」という複数の側面で採点させ、誰が何を重視しているかを比べています。ビジネスの比喩で言えば、AIはカタログの売れ筋データから判断する傾向があり、人間の専門家は現場の文脈や実現性に根ざした判断を下すことが多いのです。

田中専務

ほう。で、評価過程の説明性というのはどういう意味ですか。AIが「何を見ているか」を説明できるんですか。

AIメンター拓海

ここが肝です。研究では評価者に「なぜその点数をつけたか」を文章で説明してもらい、その説明の構造を比較しています。人間の説明は「経験に基づく文脈」と「実現可能性の評価」が頻出しますが、LLMsの説明は統計的パターンや類似例に基づく傾向が強い。要するに、AIは過去の大量パターンから合理的に答えるが、その“なぜ”が人間の直感とはズレることがあるんです。

田中専務

なるほど。では、例を見せると評価が変わるという話は本当ですか。これって要するにAIと人間の評価基準が違うということ?

AIメンター拓海

その通りです。研究では「例示(examples)」を与えるか否かで評価が変わることを示しています。特にLLMsは与えられた例に強く影響され、各評価側面の相関が高まることで評価が均質化する傾向がある。一方で人間は例示の影響を受けつつも、個々の背景や専門性で判断が分かれることが多い。投資判断で言えば、AIはベンチマークに近い提案を好む傾向があり、破壊的な発想を見逃すリスクがあるのです。

田中専務

それだと現場でAIの評価だけで判断すると、会社として革新的な案を取りこぼすかもしれないと。導入するならどんな注意が必要ですか。

AIメンター拓海

良いまとめですね。導入時の注意点を要点3つでお伝えします。1) AIの評価は補助ツールと位置づけ、人間の最終判断を残すこと。2) 例示データが評価に与える影響を理解し、例示の設計を慎重にすること。3) AIの説明を点検できる仕組み、つまり理由を検証するプロセスを作ること。大丈夫、一緒に設計すれば必ずできますよ。

田中専務

ありがとう。最後に、もし会議で若手が「AIが評価してくれるから導入だ」と言ってきたら、どんな切り口で問い直せばいいですか。

AIメンター拓海

素晴らしい問いですね!会議では「AIは何をもって良しとしていますか」「その基準は我々の事業目的と一致しますか」「異なる基準で評価された場合のリスクは何ですか」、この3つを確認してください。忙しい経営者のために要点は常に3つにまとめる習慣が大切ですよ。

田中専務

なるほど、では私の確認です。要するに、AIは過去のパターンに基づいて均質な評価をしがちで、人間は文脈や実現性を重視してバラつく。だからAIは補助に使い、人間の最終判断や評価基準の設計を残すべき、ということですね。これで社内で議論できます。ありがとうございます、拓海さん。

1.概要と位置づけ

結論から言う。本研究は、人間の専門家と大規模言語モデル(Large Language Models, LLMs)による創造性評価が本質的に異なり、その違いが評価結果と説明の構造に影響を与えることを示した点で、創造性評価の実務に直結する重要な知見を提供する。

基礎的には、創造性評価における従来の合意技法であるConsensual Assessment Technique(CAT、合意評価法)を踏襲しつつ、評価を「remoteness(遠さ)」「uncommonness(希少性)」「cleverness(巧妙性)」といった細分化した側面で計測する点が新しい。これにより単一の「独創性」スコアでは分からない評価の構造が可視化された。

応用面では、研究はAIを創造性評価の補助に使う場合の設計上の留意点を示す。具体的には、例示(examples)を与えることがLLMsの評価を均質化する点、そしてLLMsの説明は統計的類似性に基づく傾向が強い点を指摘している。企業のR&D評価や助成金の審査など、高い社会的影響を持つ判断場面に直結する。

研究の位置づけとして、本研究は創造性評価の方法論とAIの解釈可能性(explainability、説明可能性)を橋渡しする役割を担う。従来の研究が「AIは人間の評価を予測できる」という精度面に注目してきたのに対し、本研究は「どのように評価しているか」を深掘りする点で差別化される。

要するに、AIを導入する際には「精度だけで判断せず、評価基準と説明構造を設計すること」が不可欠であると結論づけられる。企業の意思決定プロセスにAIを組み込む場合、この視点は即時の実務的価値を持つ。

2.先行研究との差別化ポイント

先行研究はしばしばLLMsの出力と人間評価の相関に注目し、モデルの評価精度の高さを示してきた。そうした研究は確かに重要だが、精度が高いことは「評価方法が一致する」ことを必ずしも意味しない。本研究は精度の背後にある評価プロセスそのものを比較対象に据えた点で先行研究と明確に異なる。

具体的には、評価の多面的測定と、評価者による「説明(why)」のテキスト化を組み合わせた点が独自である。これにより、単にスコアが一致するか否かではなく、評価がなぜそうなったのかという構造的な違いを検出できる。ビジネスに例えれば、売上が同じでも顧客層や販促チャネルが異なれば戦略は変わる、という観点である。

また、本研究は「例示の有無」が評価に与える影響を実験的に示した点で差別化される。例示は人間とLLMsの双方に影響するが、LLMsでは特に評価項目間の相関が高まり、評価が均質化するという示唆が得られた。これは実務でのベンチマーク設計が評価結果を歪める可能性を示唆する。

さらに、評価者が説明で用いる言語表現の構造的特徴を比較し、LLMsがどのような特徴に依拠しているかを間接的に推定した点も新しい。これにより、単なるブラックボックスの比較ではなく、説明可能性に根差した実務的指針が得られる。

総じて、本研究は「結果の一致」から「評価過程の一致」へと視点を移したことで、AIを評価ツールとして使う際の設計原則を提示した点で先行研究と一線を画している。

3.中核となる技術的要素

本研究の技術的中核は二つある。第一は評価の細分化であり、従来は単一評価で扱ってきた創造性をremoteness、uncommonness、clevernessといった複数のファセットに分割して測る点である。これは評価の多面性を明示化し、どの面で評価者が差異を出すのかを定量的に扱えるようにした。

第二は説明テキストの収集と構造解析である。評価者にスコアを付けさせるだけでなく、その根拠を文章で記述してもらい、その言語構造やキーワードの出現パターン、面と面の関連性を比較する手法を取り入れている。技術的には自然言語処理(Natural Language Processing, NLP)を用いたテキスト解析が中心である。

LLMsの評価は与えられた例示に敏感であることが示され、例示の選定がモデルの判断軸を大きく左右するという点が重要である。これはモデルのプロンプト設計や評価データ設計の技術的な注意点に直結する。実務では例示の代表性が誤った合意を生むリスクがある。

また、モデルと人間の説明の相関を測る際、単純な一致率だけでなく、説明の論理構造や焦点の置きどころが分析されている。こうした解析は、AIの説明可能性を実務で検証する際の手法として有用である。要するに、技術は評価の解像度を上げるためにある。

結論的に、中核技術は「細分化された評価軸」と「説明の言語的解析」であり、これらが組み合わさることでAIと人間の評価の差異を明瞭に可視化している。

4.有効性の検証方法と成果

検証は二つの実験から成る。第1に専門的な科学・工学の訓練を受けた人間専門家群に対し、多様な応答を提示して各ファセットで評価させ、さらに評価理由を記述させた。第2に同一データに対してLLMsに評価を行わせ、結果と説明の構造を比較した。

成果として明確に示されたのは、LLMsは与えられた例示によって評価が大きく変動し、評価ファセット間の相関が上昇する傾向であった。これはモデル評価が均質化し、多様な観点を取り込む余地が狭まることを意味する。対照的に人間は個々の専門家の背景や経験に依存して評価が分散した。

また、説明の分析からは、LLMsの説明は類似事例や過去パターンへの帰着が多く、人間の説明は実現可能性や専門的知見に基づく具体的な参照が多いことが観察された。これはAIが「なぜ」を示す際の局所的バイアスを示唆する。

検証は定量的な相関分析と定性的な説明分析を組み合わせており、単一の指標に依存しない堅牢さを持つ。これにより、実務における「どのように評価設計を行うべきか」という示唆が得られた。

以上より、本研究はLLMsを創造性評価に使う際の利点とリスクを実証的に示し、評価基準の設計と説明の検証を不可欠とする実務的結論を導いた。

5.研究を巡る議論と課題

本研究は多くの示唆を与える一方で、幾つかの課題と議論点を残す。第一に、LLMsのバージョンや学習データセットによって評価傾向が変わる可能性が高く、結果の一般性を検証する必要がある。企業が導入する際には対象モデルの特性評価が必須である。

第二に、例示の設計自体が評価に与える影響は大きく、どのような例示が公正で代表的かを定義する方法論が未整備である。バイアスを含む例示を与えれば評価が偏るという原理は、実務の運用設計で避けるべきリスクを示している。

第三に、説明の信頼性の問題がある。LLMsは確信をもって誤った理由を述べることがあり、説明可能性の評価指標が整備されていない点は大きな課題だ。実運用では説明の検証プロセスを設け、人間が説明の妥当性を検査する仕組みが必要である。

最後に、創造性とは文化や専門領域によって捉え方が異なるため、評価軸自体の普遍性にも限界がある。したがって、企業は自社の事業目的に合わせて評価軸を再定義し、AIの挙動をその枠組みに沿って調整することが肝要である。

これらの課題は、AIを評価ツールとして採用する際の実務的な検討項目として、そのまま設計要件になる。

6.今後の調査・学習の方向性

今後は幾つかの方向で研究を進める必要がある。第一に、複数のLLMsと学習データセット間での比較研究を行い、どの特性が評価差を生むかを詳述することだ。これにより導入時のモデル選定基準が明確になる。

第二に、例示設計のガイドラインとそのバイアス評価手法の確立が求められる。実務ではベンチマークや例示が評価結果を左右するため、代表性と公平性を担保する方法論が要る。第三に、LLMsの説明の外部検証手法、すなわち説明の妥当性を測る定量指標の開発が急務である。

また、企業向けには評価プロセスの運用設計とガバナンスの研究が必要だ。AIによる評価を意思決定に組み込む際、どの段階で人間のチェックを入れるか、説明をどう保存・監査するかといった運用ルールが必須となる。研究はこれらの実務要件に対する実証的な解答を目指すべきである。

検索に使える英語キーワードの例としては、”creativity assessment”, “large language models”, “explainability”, “remoteness”, “uncommonness”, “cleverness” を挙げる。これらで関連文献を探すと、本研究の文脈を追いやすい。

会議で使えるフレーズ集

「AIは過去のパターンに基づいて一貫した評価を出しますが、それが我々の事業目的に沿っているか確認しましょう。」

「例示(examples)の設計次第で評価が変わるため、まず評価基準を厳密に定義してからAIを走らせましょう。」

「AIのスコアは参考値として扱い、最終判断は現場の専門家による説明の検証を必須にします。」

Laverghetta, A. Jr., et al., “How do Humans and Language Models Reason About Creativity? A Comparative Analysis,” arXiv preprint arXiv:2502.03253v2, 2025.

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む