4 分で読了
1 views

xGen-MM

(BLIP-3):オープンな大規模マルチモーダルモデル群 (xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近耳にするxGen-MMとかBLIP-3って、うちのような現場にも関係する技術なんでしょうか。部下が導入を勧めてきて焦っているのです。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、要点を抑えれば現場判断が楽になりますよ。まず結論を三つでまとめますと、1) データとレシピを揃えることで性能が出る、2) 画像と文章を同時に扱えるので現場説明や検索に強い、3) オープンなので自社用途で試しやすい、ですよ。

田中専務

要点が三つというのは助かります。ですが、うちの工場では図面と写真、作業メモが混在しています。それでも使えるのですか。

AIメンター拓海

はい、まさに得意とするところです。xGen-MM(BLIP-3)はマルチモーダル、つまり画像と文章を混ぜた入力を自然に扱える仕組みで、図面と写真とメモを一緒に学習させることで現場の問いに答えられるようになりますよ。

田中専務

なるほど。ただ導入コストと安全性が気になります。オープンだと外に漏れやすいとか、管理が大変ではないですか。

AIメンター拓海

素晴らしい着眼点ですね!管理面は二つの選択肢があります。1) オープンなモデルを社内にデプロイして外部接続を遮断する方法、2) オープンな資産を使って自社専用にファインチューニングする方法です。それぞれでコストと効果が違いますが、いずれも現実的に進められますよ。

田中専務

ところで、技術的にこれまでのものと何が違うのかをざっくり教えてください。これって要するにデータを増やしてモデルに食わせればいいということですか。

AIメンター拓海

素晴らしい着眼点ですね!要するにそれは正しいが説明が足りません。xGen-MMの真髄は三点です。第一に、単にデータ量を増やすだけでなく、画像と言葉が交互に並ぶ“interleaved multimodal data”(インタリーブド・マルチモーダルデータ)を揃えることです。第二に、画像の埋め込みを効率的にサンプリングする仕組み(perceiver resampler)を使い、どんな解像度でも扱えるようにすることです。第三に、学習レシピとデータセットを公開することで他社が再利用しやすくしている点です。

田中専務

ありがとうございます。要するに、データの「型」と「質」と「使い方」を変えたということですね。それなら我々も現場データを整理すれば活用できそうです。

AIメンター拓海

その通りですよ。大丈夫、一緒にやれば必ずできますよ。まずは小さなパイロットで図面と写真を数百件集めて、モデルに見せて答えさせるところから始めましょう。結果を見て投資対効果(ROI)を評価すれば意思決定がしやすくなりますよ。

田中専務

わかりました。まずは現場データの整理と、外部に出さないで試せる方法を検討します。要するに、まずは社内で小さく試し、効果が出たら拡大する、という段取りですね。整理がついたら改めて相談します。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
生成AIの適応的不確かさ定量化
(Adaptive Uncertainty Quantification for Generative AI)
次の記事
視覚エージェントの速考と遅考
(Visual Agents as Fast and Slow Thinkers)
関連記事
LinkedInにおけるパーソナライズされたフェデレーテッドサーチ
(Personalized Federated Search at LinkedIn)
Multiphysics-decision tree learning for improved variably saturated subsurface parameter estimation and reduced-order simulation
(多物理学意思決定木学習:変動飽和地下域のパラメータ推定と低次元シミュレーションの改善)
メタバースが工業ロボット化に与える可能性
(Potentials of the Metaverse for Robotized Applications in Industry 4.0 and Industry 5.0)
医療画像分割の連邦学習におけるドメイン一般化のためのモデルレベル注意とバッチ・インスタンススタイル正規化
(MLA-BIN: Model-level Attention and Batch-instance Style Normalization for Domain Generalization of Federated Learning on Medical Image Segmentation)
パームプリント検証のための物理駆動スペクトル一貫性連合学習
(Physics-Driven Spectrum-Consistent Federated Learning for Palmprint Verification)
統合TEEsと暗号保護アクセラレータによるTransformerベースAI実行の保護
(Securing Transformer-based AI Execution via Unified TEEs and Crypto-protected Accelerators)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む