4 分で読了
0 views

Activation Steeringを用いたLLMの未学習情報抽出

(Extracting Unlearned Information from LLMs with Activation Steering)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近話題の論文について聞きました。モデルから情報を消したはずでも取り出せるって、本当ですか。ウチの製品データが漏れたら困るんですが、投資対効果の観点でどれほど深刻か教えてください。

AIメンター拓海

素晴らしい着眼点ですね!大きく結論を先に言うと、はい、完全に忘れさせたはずの情報から特定の答えを精確に取り出せる手法が提案されています。大事なポイントを三つに分けて説明しますよ。まず何が起きるか、次にどのように取り出すか、最後にどの場面で危険か、です。大丈夫、一緒に整理していきましょう。

田中専務

まず用語からお願いします。最近の英語の専門用語が多くて付いていけません。あと、これって要するにウチの顧客データが外に出る可能性があるということですか?

AIメンター拓海

素晴らしい着眼点ですね!まず英語表記について短く説明します。Large Language Models (LLMs)(大規模言語モデル)は巨大な文章の塊で学習したAIです。Unlearning(アンラーニング)(情報削除)は学習済みモデルから特定情報を取り除く手法です。activation steering(活性化ステアリング)は内部の信号を書き換えて、モデルの出力を特定方向へ誘導する技術です。

田中専務

なるほど。具体的にどうやって消した情報を取り出すんですか。うちのデータで試されたらまずいので、どの程度の手間やコストがかかるのか知りたいです。

AIメンター拓海

いい質問です。要点は三つです。第一に手法はモデルの内部表現(activation、活性化)を差分で計算し、ターゲットに近づける方向に誘導します。第二に匿名化したプロンプトを使って本来の答えに結びつく差分を作るAnonymized Activation Steeringという工夫があります。第三に候補が複数ある場合は語頻度に基づく簡単なスコアリングで正解を絞ります。実働コストは攻撃者側では比較的低く、専門家がいれば手作業で実行可能です。

田中専務

要するに、外から覗かれやすいところを突かれると、完全に消したつもりでも答えが出る可能性があると。投資対効果で言えば、防御を甘くすると被害が出やすいと理解してよいですか。

AIメンター拓海

まさにそのとおりです。重要なのは三つの観点で対策を考えることです。まず、どの情報を本当に消す必要があるかを明確にすること。次に、アンラーニングだけに頼らずアクセス制御やログ監査を併用すること。最後に、リスク評価時にexact information retrieval(正確情報回収)のリスクを想定して評価することです。大丈夫、一緒に要点を整理すれば導入判断ができますよ。

田中専務

わかりました。最後に確認しますが、私の言葉で言うと「外部からモデルの内部の揺れを利用して、消したはずの答えを狙い撃ちする手法がある。だから消しただけで安全だと思わない方が良い」ということで合っていますか。

AIメンター拓海

素晴らしい着眼点ですね!その説明で完全に合っています。大丈夫、一緒に対策の優先順位を決めていきましょう。まずは影響範囲の洗い出しから始められますよ。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
鉄鋼インフラのための磁気検査ロボット
(Intelligent Magnetic Inspection Robot for Enhanced Structural Health Monitoring of Ferromagnetic Infrastructure)
次の記事
評価検証と責任あるAIの接点
(Where Assessment Validation and Responsible AI Meet)
関連記事
意思決定理論的視点が頻度主義的推論を誤解する理由
(Why the Decision-Theoretic Perspective Misrepresents Frequentist Inference: ‘Nuts and Bolts’ vs. Learning from Data)
レーダ信号に対する隠蔽型電子対抗手法
(Concealed Electronic Countermeasures of Radar Signal with Adversarial Examples)
バナジウムレドックスフローバッテリーの温度上昇予測における機械学習アプローチ
(Machine Learning based prediction of Vanadium Redox Flow Battery temperature rise under different charge-discharge conditions)
一次元の外側ギャップ加速器の電場構造
(One-dimensional Electric Field Structure of an Outer Gap Accelerator)
ERIT 軽量マルチモーダル高齢者感情認識データセット
(ERIT Lightweight Multimodal Dataset for Elderly Emotion Recognition and Multimodal Fusion Evaluation)
確率流
(Probability Flow ODE)の収束解析(CONVERGENCE ANALYSIS OF PROBABILITY FLOW ODE FOR SCORE-BASED GENERATIVE MODELS)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む