AIが生成した画像に対する人間の好みの理解と評価(Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning)

田中専務

拓海先生、最近社内でAIが描いた画像をプロモーションに使おうという話が出ているのですが、現場から「見栄えは良いが何か違和感がある」と言われて困っています。論文でそうした“人の好み”を測る研究があると聞きましたが、要は現場の不満を定量化できるという理解で良いですか?

AIメンター拓海

素晴らしい着眼点ですね!大丈夫です、これを端的に言うと、AIが作った画像(AI-generated Images, AIGIs)に対する人間の好みを、多面的に測って説明できる仕組みを作った研究です。まず結論を3点で言うと、1) 単一評価では拾えない問題を拾う、2) 評価だけでなく説明できる、3) 実務でのフィードバックループに使える、という点です。大丈夫、一緒に見ていけるんですよ。

田中専務

詳しく聞かせてください。具体的にどんな観点で評価するのですか?それによって我が社のクリエイティブや広告費の使い方が変わるかも知れません。

AIメンター拓海

良い質問です。論文では主に三つの視点で評価しています。Quality(画像品質)、Authenticity(本物らしさ)、Correspondence(プロンプトとの対応)の三つです。Qualityは画質やノイズ、ブレを見ます。Authenticityは見た目の自然さや不自然な構造の有無を見ます。Correspondenceは指示文どおりに描けているかを評価します。これでどの問題が本質か見分けられるんですよ。

田中専務

なるほど。で、その評価は人がやるのか、機械が自動でやるのか。コスト面が気になります。人手で大量に実施するのは難しいので。

AIメンター拓海

ここがこの研究の肝です。研究チームはまず大規模なデータベース(AIGCIQA2023+)を人手で作り、各画像に対して三つの視点の評価と詳細な説明を付けました。その上で、視覚と言語を組み合わせたモデル(vision-language model)を指示学習(Instruction Tuning)で訓練し、自動で評価と説明ができるようにしています。投資対効果を考えるなら、初期の人手コストはかかるが、一度学習させれば自動評価で運用コストは大幅に下がりますよ。

田中専務

これって要するに、はじめに人が基準を示して、その後はAIが同じ基準で判定と理由まで言ってくれるということですか?

AIメンター拓海

その通りです!素晴らしい理解です。しかも説明は単なるスコアだけでなく、どの部分が問題かをテキストで示してくれるため、デザイナーや生成プロンプトの改善に直接つなげられます。ポイントは三つ、1) 基準を揃えることで比較可能になる、2) 説明があるため改善が明確になる、3) 自動化で運用コストが下がる、です。

田中専務

実際のところ、どれくらい正確なんですか。従来の画像品質評価(Image Quality Assessment, IQA — 画像品質評価)と比べてどう違いますか?

AIメンター拓海

従来のIQAは主に画質劣化(ノイズ、圧縮、ぼけ)を測るのに優れますが、AI生成画像特有の«不合理な構造»や«指示との不一致»は苦手です。本研究のモデルは、人がつけた好みスコアと説明を学習しているため、こうしたAIGI特有の問題を捉えやすく、従来法に比べて人の好みに近い判定が出ると報告されています。つまり、実務的には「見た目の良さ」だけでなく「使えるかどうか」の判断に近づきますよ。

田中専務

分かりました。導入の第一ステップとしては、まず社内の基準を人手で作るところからですね。最後に、一言でこの論文の要点を自分の言葉で整理しても良いですか?

AIメンター拓海

もちろんです。最後に要点を三つにまとめます。1) 人の好みを三つの視点で定義したデータベースを作った、2) 視覚と言語を組み合わせたモデルで評価と説明を自動化した、3) 実務でのフィードバックとして使えることを示した。これだけ押さえれば会議で十分伝えられますよ。大丈夫、必ずできます。

田中専務

分かりました。自分の言葉で整理しますと、今回の論文は「人が良いと感じるかを、画質・本物らしさ・指示との一致という三つの観点で評価し、最初に人が示した基準を元にAIが自動で判定と改善につながる説明を行えるようにした」研究、ということで間違いないですか。これなら現場に説明できます。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む