2025.08.04

論文研究

11 分で読了

1 views

LLMsは有害性と拒否を別々に符号化する

（LLMs Encode Harmfulness and Refusal Separately）

#LLM

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近若い社員から「LLMの安全性に関する論文がすごい」と聞きまして、正直ピンと来ておりません。要するにウチみたいな会社に関係ある話ですか？

AIメンター拓海

素晴らしい着眼点ですね！大丈夫、一緒に整理すれば必ず分かりますよ。今回の論文は、Large Language Models (LLMs, 大規模言語モデル) が『有害かどうかを内部でどう判断しているか』を分解した研究で、経営判断に直結する観点が含まれているんです。

田中専務

うーん、専門用語は苦手ですが、「有害かどうか」と「拒否するか」は同じことではない、という趣旨ですか。これって要するに、有害と判断して拒否しているわけではない場面がある、ということですか？

AIメンター拓海

その通りですよ。端的に言えば、モデル内部には“harmfulness（有害性）”という概念と“refusal（拒否）”という行動指向が別々に存在している可能性が示されています。要点を三つにまとめると、第一に内部に別々の表現がある、第二にそれぞれ別のトークン位置で強く符号化される、第三に操作（steering）に対する振る舞いが違う、ということです。

田中専務

なるほど。現場で使うなら、拒否が出ても内部では有害と認識していないこともある、逆もまた然り――実務上どんなリスクや機会がありますか？

AIメンター拓海

素晴らしい着眼点ですね！現場では三つの観点で考えるとよいです。一つ、過剰拒否（harmless prompt を拒否してしまう）による業務効率低下、二つ、内部に有害性認識があるのに出力が通ってしまう場合の安全性問題、三つ、制御のために内部表現を直接操作する手法の有効性と限界です。一緒に具体例を見ていきましょうか。

田中専務

具体例があると助かります。例えば、現場で製造マニュアルを自動生成するときに、不要に拒否されると困りますし、逆に危ない内容がスルーされると大問題です。

AIメンター拓海

そうなんです。論文では、トークン位置 tinst（ユーザー指示の最後のトークン）で有害性が符号化され、tpost-inst（入力量全体の最後のトークン）で拒否に関する表現が強く出ることを示しています。つまりモデルはまず有害性を内部で評価し、そのあと出力上の拒否を決めるような二段階の処理をしている可能性があるのです。

田中専務

これって要するに、モデルの”中身での判断”と”外に出る挙動”がズレるときがあるということですか。もしそうなら、どうやってそのズレを確認して、現場の意思決定に生かせばいいのでしょうか？

AIメンター拓海

良い問いです。論文は内部の隠れ状態（hidden state, 隠れ状態）をクラスタリングして“harmfulness direction（有害性方向）”と“refusal direction（拒否方向）”を抽出し、これらを用いた操作で挙動の違いを検証しています。実務的には、まずはテストデータで過剰拒否や過少拒否の傾向をモニタリングし、次に特定プロンプトで内部表現のサンプルを取って確認するという段階的な運用が考えられます。大丈夫、一緒にやればできますよ。

田中専務

分かりました。では最後に、私の言葉で要点を整理させてください。モデルの内部には「有害だと感じるか」と「拒否するか」が別々にあって、そこを見たり操作したりすると過剰な拒否や危険な見逃しを減らせる、ということですね。

1.概要と位置づけ

結論を先に述べると、本研究はLarge Language Models (LLMs, 大規模言語モデル) が「有害性（harmfulness）」と「拒否（refusal）」を内部で区別して符号化していることを示した点で重要である。有害性と拒否を同じものと仮定して運用や評価を行うと、過剰な拒否や危険な見逃しという形で誤った現場判断を招く危険があるためである。

まず基礎的な位置づけを明確にすると、従来の安全性評価はモデルの出力、つまり拒否するかどうかを中心に見てきた。だが本研究は出力の背後にある隠れ状態（hidden state, 隠れ状態）を解析することで、出力と内部認知の不一致を検出しうる新しい観点を提示している。

この新しい視点は実務での品質管理や安全対策に直結する。具体的には、業務用プロンプトで過剰拒否が生じる場合、ただ単に出力側の閾値を緩めるだけでは根本問題を見誤る恐れがある。内部に有害性の表現があるかないかを確認する運用が必要になる。

経営的な観点では、LLMs導入時に「拒否が出るから安全」と安易に判断するのは危険である。むしろ内部表現の解析に基づいたリスク評価を経て、業務フローやガバナンス設計を行うことが望ましい。これが本研究がもたらす最も大きな示唆である。

本節では概観を示したが、以降は先行研究との差別化、技術的要素、検証方法と成果、議論と課題、今後の方向性へと踏み込んで解説する。検索用キーワードとしては “LLMs harmfulness direction”, “refusal direction”, “latent representation steering” を使うと良い。

2.先行研究との差別化ポイント

従来研究は主に拒否挙動を抽出してその影響を評価してきた。いわゆる refusal direction（拒否方向）を隠れ状態の差分として計算し、それを消去したり操作したりすることで出力の拒否を制御できると報告されていた。だがこれらの手法は必ずしも有害性という概念を直接的に表現しているわけではない可能性が残されていた。

本研究の差分は、入力系列の異なるトークン位置を分けて解析した点にある。具体的にはユーザー指示の終端トークン tinst と全体入力の終端 tpost-inst を分けて観察すると、有害性は主に tinst で符号化され、拒否は tpost-inst で表出する傾向が見られた。これにより有害性と拒否が両立しうることが示唆される。

さらに、本研究はクラスタリングと線形介入（steering）を組み合わせることで因果的証拠を提示している点で先行研究と異なる。単に相関的に方向を抽出するだけでなく、その方向に沿って隠れ状態を動かすとモデルの判断が実際に変化することを示している。

したがって先行研究が「拒否方向の消去＝有害性の消去」と解釈していた文脈に対し、本研究はそれが成り立たない場合が存在すること、そして有害性は拒否とは別個に扱うべき概念であることを示した点で決定的差別化を提供する。

経営視点で言えば、先行手法だけでガバナンスを設計すると誤判定が残るため、内部表現に対する定期的なチェックを実装する運用設計が必要であるという結論に帰着する。

3.中核となる技術的要素

本研究の技術的要素は三つに整理できる。第一に隠れ状態（hidden state, 隠れ状態）の抽出とクラスタリング、第二に線形方向（direction, 方向）の定義と抽出、第三にその方向に沿った介入（steering）による挙動の検証である。これらを組み合わせることで出力と内部表現の関係を可視化している。

具体的にはまず有害プロンプトと無害プロンプトの隠れ状態を収集し、tinst と tpost-inst の二箇所でクラスタリングを行う。クラスタリングの結果、tinst では有害性に基づく分離が顕著であり、tpost-inst では拒否に基づく分離が顕著であった。ここが本研究の鍵である。

次に線形方向を求めるために、あるクラス群の中心ベクトル差を direction として定義する。harmfulness direction（有害性方向）は tinst に由来し、refusal direction（拒否方向）は tpost-inst に由来する。これらを用いると、隠れ状態を線形に移動させる操作が可能になる。

最後にその操作効果を評価するために、元の入力に対して隠れ状態を方向に沿って動かし、モデル出力や判定がどう変化するかを観察する。結果として、harmfulness 方向に沿って動かすとモデルが無害プロンプトを有害と解釈するようになり、refusal 方向に沿って動かすと直接的に拒否出力が誘発されるという差が確認された。

技術的に重要なのは、これらの方向が線形で扱えるほどにモデル内部で安定して存在するという点であり、これが実務的な介入可能性と監査の出口を提供する。

4.有効性の検証方法と成果

検証は複数のモデルと多様なプロンプトセットを用いて行われた。まず有害／無害のラベル付きプロンプトを用意し、それぞれの隠れ状態を収集してクラスタ分析を実施した。ここで tinst と tpost-inst の役割分担が再現性を持って観察されたことが第一の成果である。

次に、抽出した harmfulness direction と refusal direction に沿って隠れ状態を操作する実験を行った。harmfulness 方向に沿った操作はモデルの内部判断を変え、ある無害プロンプトを有害と“解釈”させることに成功した。一方で拒否方向に沿った操作は即時に拒否出力を誘発するが、内部の有害性判断を逆転させることは少なかった。

これにより、拒否挙動だけを観察する評価はモデルの内部認識を過度に単純化しているという示唆が得られた。出力上の拒否が内部での有害性認識と一致しないケースが実証されたことで、従来のブラックボックス的評価の限界が明確になった。

さらに実験は因果的な主張を支持するよう設計されており、単なる相関ではなく方向操作が出力や判断に与える影響を示した点が成果の核心である。これは安全性対策の設計に具体的な操作基盤を提供する。

結果として、企業がLLMsを業務利用する際には、単なる出力監視に加えて内部表現のサンプリングと定期検査を組み込むことで、過剰拒否の削減と潜在的有害性の早期検出を両立できるという実務上の示唆が得られた。

5.研究を巡る議論と課題

まず一つ目の議論点は、抽出された方向がどの程度モデル横断的に一般化するかである。本研究は複数モデルで検証しているが、モデルサイズや学習データの違いにより方向の安定性は変わりうる。したがって現場で導入する際は自社での再検証が不可欠である。

二つ目の課題は操作（steering）が実際のシステム運用でどのように安全に実装できるかという点である。隠れ状態を直接操作する手法は研究環境で可能でも、プロダクションではAPI拘束や計算コスト、説明責任の観点から実装の壁がある。現実的な代替としては、内部表現を監査指標として利用し、閾値ベースでアラートやヒューマンレビューを挟む運用が現実的である。

三つ目は評価のラベル付け自体の主観性である。有害性の定義は文脈や文化によって変わるため、企業は自社のリスク受容度と法規制を踏まえたラベル設計を行う必要がある。本研究は技術的枠組みを提供するが、最終的な価値判断は人間側に委ねられる。

加えて倫理的・法的な議論も重要である。内部表現を基にモデルを操作することは、透明性と説明責任の観点で新たな問いを投げかける。経営層は技術的可能性を過信せず、法務や安全管理との連携を強化する必要がある。

以上の議論を踏まえると、本研究は実務応用への道筋を示す一方で、汎用的運用に向けた追加検証とガバナンス設計が必要であるという結論に至る。

6.今後の調査・学習の方向性

今後は三つの研究／実務上の方向性が重要である。第一にモデル間一般化性の評価を拡張し、異なるアーキテクチャや学習データに対する方向の頑健性を検証すること。これにより企業は自社モデルでの期待値をより正確に設定できる。

第二にプロダクションへの実装戦略を確立することである。隠れ状態操作を直接実装するのではなく、内部指標を用いた監査・アラート設計やヒューマン・イン・ザ・ループ（人間介在）ワークフローの構築が現実的な次の一手である。現場運用の観点からコストと効果のバランスを検討すべきである。

第三に有害性ラベルの標準化と評価パイプラインの整備である。業種や国ごとのリスク許容度を踏まえたカスタムラベル設計と、そのためのデータ収集・アノテーション手法の確立が企業導入の鍵を握る。組織横断での教育とガバナンス整備も重要である。

経営者に向けての実務的助言としては、まずは小規模なパイロットで内部表現の監査を試し、結果をもとに段階的にスケールさせることを勧める。投資対効果を測定しつつ、法務・安全部門と連携して運用基準を作るべきである。

最後に検索に使える英語キーワードを改めて示すと、”LLMs harmfulness direction”, “refusal direction”, “hidden state clustering”, “steering latent representations” である。これらで関連文献の深掘りができる。

会議で使えるフレーズ集

「このモデルは出力で拒否しているが、内部での有害性認識が伴っているかは別問題ですので、内部表現の監査を導入してはどうでしょうか。」

「過剰拒否は業務効率を損ないます。まずは代表的な業務プロンプトで過剰拒否率を定量化し、指標ベースで改善策を検討しましょう。」

「隠れ状態を使った直接操作は研究環境向けです。現場では内部指標をトリガーにして人間レビュープロセスを挟む運用が現実的です。」

「安全性対策の効果はモデル間で変わります。導入前に自社データで再現性検証を行い、投資対効果を評価する方針で進めたいです。」

参考文献: J. Zhao et al. – “LLMs Encode Harmfulness and Refusal Separately”, arXiv preprint arXiv:2507.11878v2, 2025.

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

LLMsは有害性と拒否を別々に符号化する

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

LLMsは有害性と拒否を別々に符号化する

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

関連記事

関連タグ

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ