COLUMBUS：多肢選択リバスによる認知的ラテラル理解の評価 — COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes

田中専務

拓海先生、最近うちの若手が「ラテラルシンキングをモデルで評価する論文がある」と騒いでまして。正直、横文字でよく分からないのですが、経営判断に関係ありますか？

AIメンター拓海

素晴らしい着眼点ですね！ラテラルシンキング、つまり横方向の発想は、既存のルールだけでは解けない問題を解く力です。今回の論文は画像ベースのパズルを使って、その力をAIに評価する仕組みを提案しているんですよ。

田中専務

それは要するに、普通のクイズとは違って「ひらめき」や「発想の転換」を試すということでしょうか。うちの現場で言えば、慣習や手順で対応できない時にどうするか、の評価に似ていますか？

AIメンター拓海

まさにその通りです！簡潔に言うと、3点に集約できますよ。1) 視覚情報を組み合わせて意味を作る力、2) 常識に頼らず別方向の答えを選ぶ力、3) 人が直感的に解ける領域をAIがどこまで再現できるか、を測っているんです。

田中専務

なるほど。現場で使うなら、AIが単にデータを当てはめるだけではなく、図や記号の意味を読み替える力が必要だと。で、その評価方法はどういうものなのですか？

AIメンター拓海

この研究は「リバス（rebus）パズル」を使います。リバスは絵や記号を組み合わせて言葉や熟語を表すものです。研究者は大量のテキストとアイコンを組み合わせた多肢選択問題を作り、AIが正答を選べるかを測っているのです。

田中専務

それは面白いですね。ただ、うちのようにデジタルが得意でない組織だと、AIがそんな「ひらめき」を示してくれたらどう評価すれば良いのか迷いそうです。

AIメンター拓海

ご心配な点ですね。評価のポイントは三つで整理できます。1) 人間とAIの正答差、2) AIが説明文を生成した時の抽象度、3) 定型化されていない誤りの傾向です。これを見れば、単に正答率だけでなく「どう間違うか」も分かるのです。

田中専務

これって要するに、AIが単にデータを当てはめるだけでなく、我々のように『意図を読み替える』能力を持っているかどうかを確かめるということですか？

AIメンター拓海

その通りです！そして面白いのは、最先端のビジョン・ランゲージモデル（vision-language models、VLMs ビジョン・ランゲージモデル）は人間に近い部分もあるが、説明を人手で付けると性能が上がる点です。すなわち、人が抽象化した説明を与えるとAIはうまく利用できるのです。

田中専務

要は、AIに『現場の文脈』や『人間の抽象化』を渡してあげると、より実務に役立つということですか。うちも導入時は専門家が説明を整備する必要があると。

AIメンター拓海

まさにその通りです。大丈夫、一緒にやれば必ずできますよ。まずは小さな業務でルールと例外の両方を整理し、AIに渡す「説明テンプレート」を作ることから始めましょう。

田中専務

分かりました。ではまずは弊社の現場で一つ、形式化しやすい業務を選んで試してみます。自分の言葉で整理すると、ラテラルを測るテストは「AIが人間の直感的ひらめきを模倣できるか」を図るもの、という理解で合っていますか。

AIメンター拓海

完璧です！大丈夫、拓海が付き添えば必ずできますよ。まずは一緒に評価セットを作り、AIの回答と説明を検討して、改善のサイクルを回していきましょう。

マルチラベルテキスト分類のためのバイアス除去近傍フレームワーク（A Debiased Nearest Neighbors Framework for Multi-Label Text Classification）