マルチモーダル大規模言語モデルの推論限界:ボンガード問題の事例研究(REASONING LIMITATIONS OF MULTIMODAL LARGE LANGUAGE MODELS. A CASE STUDY OF BONGARD PROBLEMS)
田中専務拓海さん、最近またAIの話が社内で出てましてね。うちの現場でも画像と説明を組み合わせて判断させたいと。で、この論文って要するに何を示しているんでしょうか?AIメンター拓海素晴らしい着眼点ですね!簡潔に言うと、画像と文章を同時に扱うMultimodal Large Language