4 分で読了
0 views

UNINTENTIONAL UNALIGNMENT: LIKELIHOOD DISPLACEMENT IN DIRECT PREFERENCE OPTIMIZATION

(直接的選好最適化における意図しない不整合:尤度置換)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近部下が『DPOっていう手法が有望です』って言うんですが、正直何を学ばせればいいのか判らなくてして。

AIメンター拓海

素晴らしい着眼点ですね!Direct Preference Optimization (DPO)(Direct Preference Optimization、直接的選好最適化)というのは、モデルに人が好む応答をより高確率で出させる学習方法ですよ。

田中専務

で、それをやると逆に好ましい応答の確率が下がることがあると聞きました。本当にそんなことが起きるのですか。

AIメンター拓海

大丈夫、ちゃんと説明しますよ。論文は”likelihood displacement”(likelihood displacement、尤度置換)という現象を指摘しており、見かけ上は好ましい応答との差が広がるのに、両方の確率が下がることがあるんです。

田中専務

これって要するに、上げたいものが上がらずに別の答えばかり増えるということですか。そうなると現場に入れられませんね。

AIメンター拓海

そうです、まさにその通りですよ。要点は三つだけおさえればよいです。1つ、目的通りに上がっているかを確かめること。2つ、似ている応答がどう影響しているかを測ること。3つ、訓練データの選び方を工夫することです。大丈夫、一緒にできますよ。

田中専務

三つに絞ると分かりやすいですね。ただ、どうやって『似ている応答』を見つけるのかがわかりません。現場の誰でもできる方法はありますか。

AIメンター拓海

論文はCHESという指標、Centered Hidden Embedding Similarity (CHES)(Centered Hidden Embedding Similarity、中心化隠れ層埋め込み類似度)を提案しており、どの訓練例が尤度置換を引き起こすかを特定できます。現場では、モデルの内部表現の類似度を使うイメージです。

田中専務

内部の埋め込みって難しそうですが、要は『似ている応答を見つけて除外したり調整すれば良い』ということですか。

AIメンター拓海

その発想で合っています。ただし単純に除外すればよいわけではなく、どの例が有害かを定量的に判断する必要があります。CHESはまさにそのための計測器で、どの訓練ペアが問題を起こしているかを示してくれるんです。

田中専務

投資対効果で言うと、モデルを直す労力はどの程度か。データ整備で済むのか、再学習が必要なのか、現場はそこを知りたがっています。

AIメンター拓海

重要な視点ですね。一般的にはモニタリング→データ調整→再学習の順で進めます。まずはCHESで要注意の例を洗い出し、小さな修正で効果が出るかを確かめるのが現実的です。大丈夫、一緒に段階を踏めばROIも見えますよ。

田中専務

分かりました。最後に確認ですが、この論文の要点を私の言葉で言うと『好ましい応答を増やそうとする学習で、知らずに別の答えに確率が移ることがあり、それを見つけるための指標(CHES)と対処の必要性を示した』という理解で合っていますか。

AIメンター拓海

素晴らしい要約です!その通りですよ。実務では測定と小さな介入を繰り返し、不整合を未然に防ぐ運用を作っていけるんです。大丈夫、一緒に進めましょう。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
空間的把持領域と人間デモに基づく二手操作モデル学習
(Learning Spatial Bimanual Action Models Based on Affordance Regions and Human Demonstrations)
次の記事
公共交通ネットワークのアクセシビリティ平等化を目指すバス路線設計
(Public Transport Network Design for Equality of Accessibility)
関連記事
パッチBMI-Net:顔パッチベースの軽量BMI予測アンサンブル
(PatchBMI-Net: Lightweight Facial Patch-based Ensemble for BMI Prediction)
未知を管理する:オープンセット認識と周辺領域の調査
(Managing the unknown: a survey on Open Set Recognition and tangential areas)
局所・大域の敵対的汚染を想定した頑健な分布学習
(Robust Distribution Learning with Local and Global Adversarial Corruptions)
少ない方が効く: EOS決定の視点から見るマルチモーダル誤認
(Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective)
離散状態空間における生成フロー:マルチモーダルフローをタンパク質共同設計へ
(Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design)
可変深度ハイブリッド学習オートマトンとBitcoinのセルフィッシュマイニング攻撃に対する防御
(VDHLA: Variable Depth Hybrid Learning Automaton and Its Application to Defense Against the Selfish Mining Attack in Bitcoin)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む