包括的視覚キャプション評価ベンチマーク CAPability（What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness）

田中専務

拓海先生、最近部下から「視覚キャプションの評価を見直す必要がある」と言われましてね。要するに我が社が画像や動画の説明文を機械に任せるとき、どの程度信頼できるかを測る基準が古くなっていると聞きましたが、本当ですか。

AIメンター拓海

素晴らしい着眼点ですね！田中専務、その通りです。従来の基準は短い正解文と単純な一致率で評価しており、今の多視点で説明を生成できるモデルには不十分なんですよ。

田中専務

なるほど。で、具体的に何が問題で、何を新しくすればいいんでしょうか。現場の担当者は「詳細に書ければいい」と言いますが、それだけでは投資対効果が見えません。

AIメンター拓海

大丈夫、一緒に整理できますよ。要点は三つです。まず、正確性（correctness）を測ること。次に、網羅性（thoroughness）を測ること。最後に、単一の短文ではなく複数観点で評価できるデータを用意することです。

田中専務

これって要するに、今までの”短い正解文にどれだけ似ているか”で見る方法を、もっと細かい視点でチェックできる基準に変える、ということですか。

AIメンター拓海

はい、まさにその通りです。例えるなら、従来は商品のラベルだけを見て合格か否かを決めていたようなもので、今は中身の成分、賞味期限、保存方法まで確認するような評価に変わってきているんです。

田中専務

しかしそのためにはデータをたくさん用意しないといけないのではありませんか。我々のような中小の現場でも導入可能ですか。

AIメンター拓海

大丈夫ですよ。CAPabilityは約11,000枚の画像・動画に人手で詳細注釈をつけており、各観点ごとに評価できる仕組みを示しています。中小でも最初は一部の観点から始めて段階的に拡張できます。

田中専務

投資対効果の観点で言うと、まずどの指標を見れば良いですか。正確さと網羅性のどちらに重きを置くべきか、事業ごとに違いますよね。

AIメンター拓海

素晴らしいご指摘です。用途が顧客向けなら網羅性を重視し、法令遵守や危険判定なら正確性を最重視するのが合理的です。最初に業務要件を定めて、それに応じた観点を選ぶのが効率的ですよ。

田中専務

分かりました。では最後に私から確認させてください。要するにCAPabilityは「正確性と網羅性を、物体・全体・文字・カメラ・時間・知識という複数の視点で評価する新しいベンチマーク」という理解でよろしいですか。私の言葉で言うと、評価の”目薬箱”が増えた、という感じです。

AIメンター拓海

その比喩、素晴らしいですね！まさにその通りです。貴社でも段階的に観点を導入して、現場での評価軸を明確にすれば、無駄な投資を避けつつ運用品質を高められるんですよ。

田中専務

よし、まずは映像点検で使ってみます。ありがとうございました。では私の言葉でまとめます。CAPabilityは「多面的に物と状況を評価できる新しいものさし」であり、用途に応じて観点を選んで段階的に導入すれば投資効率が良くなる、ということですね。

未同定ガンマ線源 TeV J2032+4130 の VERITAS による観測（Observations of the unidentified gamma-ray source TeV J2032+4130 by VERITAS）