2025.01.28

論文研究

4 分で読了

0 views

Activation Steeringを用いたLLMの未学習情報抽出

（Extracting Unlearned Information from LLMs with Activation Steering）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近話題の論文について聞きました。モデルから情報を消したはずでも取り出せるって、本当ですか。ウチの製品データが漏れたら困るんですが、投資対効果の観点でどれほど深刻か教えてください。

AIメンター拓海

素晴らしい着眼点ですね！大きく結論を先に言うと、はい、完全に忘れさせたはずの情報から特定の答えを精確に取り出せる手法が提案されています。大事なポイントを三つに分けて説明しますよ。まず何が起きるか、次にどのように取り出すか、最後にどの場面で危険か、です。大丈夫、一緒に整理していきましょう。

田中専務

まず用語からお願いします。最近の英語の専門用語が多くて付いていけません。あと、これって要するにウチの顧客データが外に出る可能性があるということですか？

AIメンター拓海

素晴らしい着眼点ですね！まず英語表記について短く説明します。Large Language Models (LLMs)（大規模言語モデル）は巨大な文章の塊で学習したAIです。Unlearning（アンラーニング）（情報削除）は学習済みモデルから特定情報を取り除く手法です。activation steering（活性化ステアリング）は内部の信号を書き換えて、モデルの出力を特定方向へ誘導する技術です。

田中専務

なるほど。具体的にどうやって消した情報を取り出すんですか。うちのデータで試されたらまずいので、どの程度の手間やコストがかかるのか知りたいです。

AIメンター拓海

いい質問です。要点は三つです。第一に手法はモデルの内部表現（activation、活性化）を差分で計算し、ターゲットに近づける方向に誘導します。第二に匿名化したプロンプトを使って本来の答えに結びつく差分を作るAnonymized Activation Steeringという工夫があります。第三に候補が複数ある場合は語頻度に基づく簡単なスコアリングで正解を絞ります。実働コストは攻撃者側では比較的低く、専門家がいれば手作業で実行可能です。

田中専務

要するに、外から覗かれやすいところを突かれると、完全に消したつもりでも答えが出る可能性があると。投資対効果で言えば、防御を甘くすると被害が出やすいと理解してよいですか。

AIメンター拓海

まさにそのとおりです。重要なのは三つの観点で対策を考えることです。まず、どの情報を本当に消す必要があるかを明確にすること。次に、アンラーニングだけに頼らずアクセス制御やログ監査を併用すること。最後に、リスク評価時にexact information retrieval（正確情報回収）のリスクを想定して評価することです。大丈夫、一緒に要点を整理すれば導入判断ができますよ。

田中専務

わかりました。最後に確認しますが、私の言葉で言うと「外部からモデルの内部の揺れを利用して、消したはずの答えを狙い撃ちする手法がある。だから消しただけで安全だと思わない方が良い」ということで合っていますか。

AIメンター拓海

素晴らしい着眼点ですね！その説明で完全に合っています。大丈夫、一緒に対策の優先順位を決めていきましょう。まずは影響範囲の洗い出しから始められますよ。

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

Activation Steeringを用いたLLMの未学習情報抽出

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

Activation Steeringを用いたLLMの未学習情報抽出

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

監修者

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ