GPT-4は人間より人間らしいと評価される(GPT-4 is judged more human than humans in displaced and inverted Turing tests)

田中専務

拓海先生、最近話題の論文について若干聞きたいのですが。要点だけ教えていただけますか。

AIメンター拓海

素晴らしい着眼点ですね!端的に言うと、この研究はGPT-4が”人間らしさ”を問われる場面で人間よりも人間らしく見えてしまうことを示しているんですよ。

田中専務

ん、これって要するにAIのほうが人間に似せるのがうまくなって、人間の審判役が見破れないということですか。

AIメンター拓海

いい着眼ですね。要するにその通りです。ただし本研究は通常の対話型の判定だけでなく、第三者が会話記録を読んで判定する状況でも同様にうまくいってしまう点を示しているんです。

田中専務

第三者が読むケースというのは、例えばSNSで誰かの会話を見て判断する場面ですか。それだと我々の現場でも起こり得ますね。

AIメンター拓海

そうです。研究では二つの変形チューリングテスト、inverted Turing test(評価者にAIを置く変形)とdisplaced Turing test(会話を読んで判定する第三者版)を使い、AIの判定能力と人間の判定能力を比較しています。

田中専務

GPT-4が判定者の役目をしても精度が低いというのは、要するにAIに任せると誤判定が増えるということですか。

AIメンター拓海

正確には、AIが判定者として振る舞うと、人間の対話者が直接尋問できる場面よりも判定精度が下がったという結果です。つまり現場でログを機械に任せる運用は慎重であるべきです。

田中専務

なるほど。では結局、人間の管理を外してAIに全て任せるのは危ないと。投資対効果を考えると、どこで人の判断を入れれば良いのでしょうか。

AIメンター拓海

大丈夫、一緒に考えればできますよ。要点を三つにまとめると、第一にAI単独の判定は過信できない、第二に対話的な確認が有効、第三にログを読む第三者判定はさらに難しい、です。これを基に運用設計をすれば良いのです。

田中専務

分かりました。これって要するに、AIの進化で見た目は人間に近くなるが、それを読み解く人間の問いかけや文脈理解が鍵になるということですね。

AIメンター拓海

その通りです。表面的なやり取りだけで判定するのではなく、確認と対話設計を含めた仕組みづくりが重要ですよ。大丈夫、必ずできますよ。

田中専務

分かりました。自分の言葉で言うと、この研究は「ログだけ読んでAIか人かを判定するのは難しく、AIが逆に人間らしく見える場面があるから、現場では必ず人の確認を入れるべきだ」ということですね。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む