6 分で読了
0 views

継続学習を用いたマルチモーダル大規模言語モデルの改善

(Improving Multimodal Large Language Models Using Continual Learning)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海さん、お時間いただきありがとうございます。最近、部下から『うちもマルチモーダルAIを導入すべきだ』と言われて困っているのですが、そもそもマルチモーダルって何ができるんでしょうか。導入すると現場はどう変わるのか、投資に見合うかが心配でして。

AIメンター拓海

素晴らしい着眼点ですね!マルチモーダルとは、文字だけでなく画像など複数の情報源を同時に扱えるAIのことですよ。要点は3つです。1) 視覚情報を理解できること、2) テキストと画像を組み合わせて解釈できること、3) 現場の検査や問い合わせ対応で人手を減らせることです。大丈夫、一緒に要点を押さえれば導入は可能ですよ。

田中専務

なるほど。しかし、論文を少し読んだら『統合で元の言語能力が落ちる』とありまして、これが何より怖い。うちの業務は言葉での指示や文書作成が多いので、言語能力が落ちるのは致命的です。どういう仕組みで能力が下がるんですか。

AIメンター拓海

素晴らしい切り口ですね!それは「忘却(catastrophic forgetting)」という現象です。簡単に言うと、別の能力を急に学ばせると元の能力の重みが上書きされて弱くなるんです。要点は3つ。1) 元の大規模言語モデル(LLM)がまずあり、2) そこに視覚モデルをつなぐとパラメータが変わり、3) 言語タスクでの性能が下がることがある、という流れです。例えるなら、新しいシステムを急に入れて既存の業務手順が混乱するのと似ていますよ。

田中専務

それを防ぐ手段がある、という論文を読んだのですが、継続学習(continual learning)を使うと良い、とありました。と言われても、継続学習って現場でどう効くのか想像がつきません。要するに新しいことを学ばせても古いことを忘れないようにする手法という理解でいいのでしょうか?

AIメンター拓海

その理解で合っていますよ!継続学習(Continual Learning, CL)は、新しいタスクを順に学習するときに過去の知識を失わないようにする技術です。要点は3つです。1) 重みを守る工夫、2) 過去の重要なデータを再利用する工夫、3) 新旧を両立する学習スケジュールの設計、これらでバランスを取ります。つまり、段階的に学ばせることで既存の言語性能を保ちながら視覚能力を付けられるんです。

田中専務

なるほど。で、実際にどの程度改善されるものなんでしょうか。うちのような中堅企業が投資するに値するレベルなのか、ざっくりでいいので教えてください。

AIメンター拓海

いい質問です!論文の結果では、適切な継続学習法を使うと言語性能の低下を従来手法比で最大約15%抑えつつ、視覚理解能力は維持できたと報告されています。要点は3つです。1) 言語性能の劣化を大幅に減らせる、2) マルチモーダル精度を落とさない、3) モデル規模や事前調整の仕方で結果が変わる、という点です。これは中堅企業にとって『既存の文書業務を損なわず新機能を付ける』という実用的な意味がありますよ。

田中専務

具体的にどんな手法が有効なんですか。うちのIT部門に『これをやってみて』と指示できるレベルで教えていただけますか。導入工数が多いなら躊躇しますので、現実的な案が知りたいです。

AIメンター拓海

良い視点ですね!論文では複数の継続学習法を比較しています。要点は3つです。1) 重要な重みを保つ正則化法、2) 過去データの代表例を少量保持するリプレイ法、3) モデルの一部だけを微調整する部分学習法、です。現実的にはまず部分学習で試し、効果が薄ければリプレイを少量追加するのが工数対効果の良い進め方ですよ。大丈夫、段階的に進めれば必ずできますよ。

田中専務

それを聞いて安心しました。ただ現場では『モデルのテストや評価をどうやってやるか』という実務の壁があります。評価用の基準や指標はどうすればいいですか。

AIメンター拓海

素晴らしい着眼点です!論文では言語タスク(NLG: Natural Language Generation、自然言語生成やNLU: Natural Language Understanding、自然言語理解)の評価と視覚言語タスク(VL: Vision-Language)の評価を両方行っています。要点は3つ。1) 既存の言語ベンチマークを保つこと、2) 視覚タスクの精度を同時に測ること、3) どの程度まで言語性能を許容するかビジネス基準を設定すること、です。実務ではまず許容ラインを決めることが肝心ですよ。

田中専務

これって要するに、段階的に新しい視覚機能を付け加えつつも既存の言語力は守る、ということですね。うまく進めれば、今の業務を傷つけずに新しい機能を実装できる、と理解してよろしいですか。

AIメンター拓海

その理解で正しいです!要点は3つにまとめられます。1) 継続学習で忘却を抑えられる、2) 視覚能力を加えても言語性能を大きく損なわない手法が存在する、3) 段階的な導入で工数とリスクを抑えられる。大丈夫、一緒に計画を立てれば導入はできるんです。

田中専務

分かりました。では社内ではまず、既存の文書業務が維持されることを優先しつつ、部分的に視覚機能を試してみる段取りで進めます。私の言葉で整理すると、『継続学習を使って段階的に視覚を付加し、言語性能の低下を抑えながら実装する』ということですね。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
強化学習における人間フィードバックを用いた安全性強化
(Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization)
次の記事
スクラップベースの電気アーク炉における鋼の最終リン含有量予測
(Prediction of Final Phosphorus Content of Steel in a Scrap-Based Electric Arc Furnace)
関連記事
ワークロード・エンジニアリング:RLベースのワークロード配置によるWANとDC資源の最適化
(Workload Engineering: Optimising WAN and DC Resources Through RL-based Workload Placement)
分散型マルチ目標カバレッジ制御のための制約付き学習
(Constrained Learning for Decentralized Multi-Objective Coverage Control)
GraFT: Gradual Fusion Transformer for Multimodal Re-Identification
(GraFT:段階的融合トランスフォーマーを用いたマルチモーダル再識別)
軽量DRLポリシーによる効率的なマルチエージェントナビゲーション
(Efficient Multi-agent Navigation with Lightweight DRL Policy)
テキストから一挙にステレオ画像を作る仕組み
(Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards)
確率的勾配MCMCのためのコントロールバリアント
(Control Variates for Stochastic Gradient MCMC)
関連タグ
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む