11 分で読了
4 views

LLMはCVEを分類できるか? CVSSベクトル算出能力の調査

(Can LLMs Classify CVEs? Investigating LLMs Capabilities in Computing CVSS Vectors)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近社内で「CVSSを自動化できる」って話が出ているんですが、正直言って私には何が何やらでして。要するにAIが脆弱性の重要度を自動で判定してくれるという理解でいいんですか?

AIメンター拓海

素晴らしい着眼点ですね! 大丈夫、落ち着いて説明しますよ。今回の論文は、Large Language Model (LLM) 大規模言語モデルを使って、CVE(Common Vulnerabilities and Exposures、公開脆弱性)に対するCVSS(Common Vulnerability Scoring System、脆弱性スコアリング制度)のベクトル、つまり各項目の判定を自動で出せるかを調べた研究です。要点は結論ファーストで言うと、一般的なLLMだけでもかなり高精度な判定が期待できる、ということですよ。

田中専務

それは心強いですね。ただ実務で使うには投資対効果や現場での運用が心配です。例えば誤ったスコアが付いたらどうするんですか。結局は人が確認する必要が出てくるのではないでしょうか。

AIメンター拓海

素晴らしい着眼点ですね! ここは重要なポイントです。論文はまず「完全自動化」ではなく「支援」としての使い方を提案しています。要点を三つに分けると、(1) 人の負担を減らすための一次判定が可能、(2) モデルごとの得意不得意がありヒューマンチェックを効率化できる、(3) 埋め込み(embedding)+従来型機械学習のハイブリッドが更に安定する、ということです。つまり誤判定はゼロにならないが、確認工数を大幅に減らせるのです。

田中専務

なるほど。で、現場への導入はどの程度簡単なんでしょう。うちの現場はクラウドにも抵抗があるし、専門家も限られています。これって要するに社内の担当者が使いこなせるレベルで導入できるということですか?

AIメンター拓海

素晴らしい着眼点ですね! 実務面では次の三点が鍵になります。まず、どのモデルを使うかで精度が大きく変わる点。論文ではGemma3というモデルが一部のCVSSベクトル要素で0.98の精度を示しました。次に、クラウド利用を避けたい場合は社内で稼働可能なモデルや埋め込み+軽量分類器を選べば負荷を抑えられます。最後に運用プロセスを変えずに「一次判定→人確認」のフローを組み込めば導入障壁は低いです。

田中専務

モデル名で差が出るんですね。それと論文の方法論の違いも教えてください。LLMを直接使う方法と、埋め込み(embedding)を使う従来型の分類器ではどちらが現実的なんでしょう。

AIメンター拓海

素晴らしい着眼点ですね! 論文は二つのシナリオを比較しています。バニラ(vanilla)シナリオは、一般用途のLLMをプロンプトで直接使う方法で、専門知識の微調整が不要で即戦力になりやすいという利点があるのです。埋め込み(embedding)+従来型機械学習(ML)アプローチは、データを数値化して従来の分類器で学習させるため、運用や再現性の面で安定しやすいという利点があります。論文ではハイブリッドにより平均精度0.84を達成し、実運用ではこちらが堅実な選択肢になり得ると述べています。

田中専務

なるほど、現場で試してみる価値はありそうですね。最後に、投資対効果の観点で経営判断に使える簡潔な要点を教えてください。

AIメンター拓海

素晴らしい着眼点ですね! 要点を三つにまとめます。第一に導入コストはモデル選定と運用設計に集中するため、段階的導入でリスクを抑えられること。第二に一次判定の自動化でセキュリティ担当の工数を削減でき、優先対応の迅速化が期待できること。第三に、ハイブリッド運用により誤検知を軽減しつつ、継続的にモデルを改善できる点です。安心して一歩を踏み出せますよ。大丈夫、一緒にやれば必ずできますよ。

田中専務

わかりました。では社内で小さな実証を回してから本格導入を検討します。今日はありがとうございました。私の言葉でまとめると、LLMや埋め込みを使って「まずは一次判定を自動化し、重要度判定の工数を減らして人は最終確認に集中する」ということですね。

1.概要と位置づけ

結論を先に述べると、本研究は「一般用途の大規模言語モデル(Large Language Model, LLM)だけでも、公開脆弱性(Common Vulnerabilities and Exposures, CVE)の記述からCVSS(Common Vulnerability Scoring System, CVSS)ベクトルを高精度で生成できる可能性がある」ことを示した。これは脆弱性管理の現場で検知から対応優先度決定までの時間を短縮し、人的工数を削減する点で大きな変化をもたらす。

まず基礎から整理すると、CVEとは公開される脆弱性の識別子であり、CVSSはその脆弱性の「攻撃のしやすさ」と「影響度」を定量化する評価体系である。現状ではスコア付与に専門家の主観が入りやすく、同一脆弱性でも評価が不一致になる事情がある。そこに自動化を導入することで一貫性と迅速性を同時に達成することを狙っている。

本研究は従来の自動化アプローチと異なり、ファインチューニングを行わない一般用途LLMの適用可能性を体系的に検証した点で位置づけが明確である。さらに、埋め込み(embedding)を用いた従来型機械学習と比較し、両者の利点を引き出すハイブリッド戦略も示している。企業の実務を念頭に置いた評価設計である点が特徴だ。

経営的なインパクトは明瞭である。一次判定の自動化はセキュリティ担当者の優先順位付けを効率化し、対応の遅延を削減することで実業務上のリスク低減に直結する。投資対効果の観点からは、初期のモデル選定と運用設計に吸収されるコストを回収できるかが鍵となる。

本節の要点は、LLMが即戦力の候補であること、従来手法との比較でハイブリッド運用が現実的であること、そして導入は一次判定の支援から始めるべきだという三点である。

2.先行研究との差別化ポイント

過去の研究は多くが専用データでの学習や、脆弱性検出そのものに焦点を当てていた。今回の研究は「一般用途LLMを微調整なしで使う」という条件で、CVE記述から直接CVSSベクトルを生成できるかを詳細に検証した点で差別化されている。言い換えれば、既存研究の延長線上ではなく運用しやすさを重視した実証研究である。

さらに、従来の埋め込み(embedding)手法と従来型の分類器の組み合わせと比較している点は重要である。埋め込みとはテキストを数値ベクトルに変換する技術であり、これを用いると従来の機械学習(Machine Learning, ML)モデルで安定した分類が可能になる。この比較により、どの場面でLLMが有利か、どの場面で埋め込み手法が堅実かが見える化された。

論文は複数モデルを比較した上で、モデルごとに得意なCVSS要素が異なることを示した。特にGemma3というモデルは一部要素で高い精度を出したが、全要素で均一に優れているわけではない。これにより、単一モデルの全自動化には慎重な姿勢が示される。

したがって差別化ポイントは三つある。第一に「汎用LLMの即時適用可能性」の検証、第二に「埋め込み+従来型分類器との定量比較」、第三に「ハイブリッド運用の提案」である。これらにより実運用に近い洞察が得られている点が先行研究との差となる。

3.中核となる技術的要素

本研究の技術核は三つに分かれる。まずプロンプトを工夫してLLMにCVSS各要素の判定を促すバニラ(vanilla)アプローチである。プロンプト工夫とは、モデルに与える指示文を調整することで出力の品質を改善する手法のことだ。ここでの工夫は、モデルに背景情報や期待される出力形式を明示することに集中している。

第二はテキスト埋め込み(text embedding)技術の適用である。埋め込みは文章の意味を数値ベクトルに変換するもので、これを特徴量として従来型機械学習で学習させると、再現性の高い分類が期待できる。埋め込み+MLは運用での安定性を担保しやすい点が利点である。

第三はハイブリッド戦略だ。具体的にはLLMの出力と埋め込みベースの分類結果を組み合わせることで、個々の弱点を補完し合う仕組みを作る。論文はこの方法で平均精度0.84を達成しており、実務での誤検知低減に有効であることを示している。

また評価指標は各CVSSベクトル要素ごとの精度であり、要素ごとに難易度が異なる点が技術的なポイントである。社内導入を考える際は、どの要素を自動化するかを選ぶことが重要になる。

4.有効性の検証方法と成果

検証は二つの主要シナリオで行われた。バニラシナリオは一般用途LLMをそのまま用い、プロンプト最適化のみで評価した。一方、埋め込みシナリオは埋め込み生成器で特徴量を作り、従来の分類器で学習させる方式である。これにより即時性と安定性の両面が比較された。

主要な成果として、いくつかのCVSSベクトル要素ではGemma3が最大0.98の精度を示したことが挙がる。全体を見るとモデルごとのばらつきは存在するが、ハイブリッド化により平均精度0.84を達成し、運用で実用的な水準に近づいたことが示された。つまり単独の方法よりも組み合わせが有効である。

さらに論文はプロンプトエンジニアリングの工夫が特定の場面で有効であることを示した。ランダム化や例示(few-shot)の追加で誤判定が減るケースが観察されており、運用段階でのチューニング余地があることを示唆している。

結果の読み替えとしては、全自動化にはまだ注意が必要だが、現場での一次判定支援としては十分有用であると解釈できる。実務では段階的導入とヒューマンインザループの設計が成功の鍵になる。

5.研究を巡る議論と課題

議論点として最も重要なのは「信頼性と説明可能性」である。LLMの判断根拠は必ずしも透明ではなく、誤判定が起きた際にその理由を後追いで説明する仕組みが求められる。経営判断のためには説明可能性が不可欠であり、単に高精度を示すだけでは不十分である。

次にデータの偏りと一般化の問題がある。学習に使われるデータセットが偏っていると特定の脆弱性タイプで性能が低下するリスクがあり、継続的な評価とデータ更新が必要になる。特にゼロデイや新種攻撃に対する一般化能力は実務での課題だ。

運用面ではオンプレミス運用かクラウド運用かの選択が議論を呼ぶ。機密性の高い脆弱性情報を外部に出せない場合は社内で動く軽量モデルや埋め込み+分類器が選択肢になり得る。コストと安全性のトレードオフを明確にする必要がある。

最後に、評価指標の選択も課題である。研究は要素別精度を提示しているが、実務上は誤検知による機会損失や誤った優先度決定のコストを総合的に評価する必要がある。経営判断に結びつけるための費用対効果分析が今後求められる。

6.今後の調査・学習の方向性

今後の研究課題は三つに集約される。第一に説明可能性(explainability)を強化する手法の導入であり、LLMの出力に根拠スニペットを添える工夫や、対話型の検証プロセスを作ることが有効である。経営に提出する際の信頼感を高めるための技術的改善が不可欠である。

第二に継続的学習とデータ更新の仕組みを整備することである。脆弱性の性質は変化するため、モデルを放置すると性能が劣化する。運用中に得られる人手によるフィードバックを学習サイクルに組み込む設計が推奨される。

第三に実運用での費用対効果評価を体系化することである。単純な精度比較だけでなく、誤判定が引き起こす経済的インパクトや対応工数の削減効果を定量化する手法が求められる。これにより経営判断をサポートする説得力のある資料を作れる。

検索に使える英語キーワードは次の通りである:”LLM CVSS”, “CVE classification”, “vulnerability scoring automation”, “embedding-based classification”。これらで追加文献を探すと関連研究が見つかるだろう。

会議で使えるフレーズ集

「まずは一次判定の自動化を導入し、最終判断は人が行うハイブリッド運用を提案します。」

「モデル選定と運用設計に初期投資を要しますが、検知から対応までのリードタイム短縮で回収可能です。」

「Gemma3のようなモデルは一部要素で高精度を示しますが、全体の安定性は埋め込み+分類器のハイブリッドで担保します。」

引用元

F. Marchiori, D. Donadel, M. Conti, “Can LLMs Classify CVEs? Investigating LLMs Capabilities in Computing CVSS Vectors,” arXiv preprint arXiv:2504.10713v1, 2025.

論文研究シリーズ
前の記事
人間とロボットの行動整合に向けたマルチモーダル示教学習
(Toward Aligning Human and Robot Actions via Multi-Modal Demonstration Learning)
次の記事
行動関数認識型Webシェル検出
(Behavioral Function-Aware Detection for WebShell Detection)
関連記事
ブロックチェーン上での生成モデル推論に対する無コストの信頼性保証パラダイム
(Proof of Quality: A Costless Paradigm for Trustless Generative AI Model Inference on Blockchains)
ハイパープロパティ制約付き安全強化学習
(Hyperproperty-Constrained Secure Reinforcement Learning)
LLMを用いたマルウェア解析のためのセマンティック前処理
(Semantic Preprocessing for LLM-based Malware Analysis)
マルチドメイン性能を改善する能動学習ベースの戦略
(Optimizing Multi-Domain Performance with Active Learning-based Improvement Strategies)
構造化された人間のフィードバックを通じたアラインメント学習とメタアラインメント
(NPO: Learning Alignment and Meta-Alignment through Structured Human Feedback)
製造現場向けスパース時系列注意機構による予測改善
(Enhancing Manufacturing Forecasts with Sparse Temporal Attention)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む