2025.03.26

論文研究

13 分で読了

0 views

オープンソース脅威インテリジェンス収集と管理のためのAI駆動システム

（ThreatKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近部下から『オープンソースの脅威情報をAIで整理する仕組み』が良いと言われまして、正直何をどう評価すれば良いのか分からず困っています。要するに投資に値するんですか？

AIメンター拓海

素晴らしい着眼点ですね！大丈夫です、一緒に整理していけば、投資対効果の判断ができるようになりますよ。まずは結論ですが、こうしたシステムは『脅威情報の量と関連性を人手で追うコストを劇的に下げる』ため、現場の効率化と意思決定の迅速化に貢献できますよ。

田中専務

なるほど。ただ現場の話を聞くと、データが散らばっていてまともな情報が取れない、というのが本当の悩みです。具体的には現状どのようなことが自動化されるんでしょうか？

AIメンター拓海

いい質問です。まず、オープンソースの脅威インテリジェンス、英語でOpen-Source Cyber Threat Intelligence（OSCTI）という情報源を自動で収集しますよ。次に、散らばった文章から脅威の主体、ツール、攻撃手法などを抽出して『脅威ナレッジグラフ（Threat Knowledge Graph）』に繋げます。最後に、検索や自然言語の質問で使える形に整理します。

田中専務

それは分かりやすい。けれど、AIが勝手に誤った関係性を作ってしまう懸念はないですか。導入して現場を混乱させたら意味がありません。

AIメンター拓海

その懸念は非常に的確です。ここで重要なのは『品質管理の仕組み』です。要点は三つ。まず、抽出モデルは専用のデータでチューニングし精度を上げること。次に、ナレッジグラフの生成は曖昧な関係を分離するルールを設けること。最後に、人が検証しやすい可視化とフィードバック経路を用意することです。

田中専務

なるほど。これって要するに『AIで拾った情報を人が検証して学ばせるサイクルを作る』ということですか？それなら現場でも導入できそうです。

AIメンター拓海

その理解で正しいですよ。加えて運用面では『段階的導入』が鍵です。最初は限定されたソースと小さなチームで運用し、出力の信頼性が確認できたら範囲を広げる。これを守れば現場の混乱は避けられますよ。

田中専務

費用対効果の判断材料が欲しいのですが、どんな指標を見れば良いでしょうか。導入コストを正当化するには現場の工数削減だけで十分でしょうか？

AIメンター拓海

良い問いです。投資対効果は三つの軸で評価すると分かりやすいです。第一に運用コストの削減、第二に検出や対応のスピード改善による被害低減、第三に意思決定の精度向上に伴う間接的な損失回避です。これらを概算して比較するだけでも十分判断可能です。

田中専務

運用面での抵抗はあります。現場に新しいツールを使わせるのは大変で、使われなければ意味がない。何か導入を進める際のコツはありますか？

AIメンター拓海

ここも実務的なポイントがあります。ユーザーが使いやすいUIと、日常業務に自然に入り込む通知設計が重要です。まずは『少人数のヘビーユーザーを作る』『成功事例を作る』『その事例を社内で横展開する』という順序で進めると現場導入がスムーズになりますよ。

田中専務

分かりました。では最後に私の理解が合っているか確認させてください。要するに『散らばった公開脅威情報をAIで集め、関係性を構造化して見える化し、人が検証しながら運用することで現場の工数とリスクを下げる仕組み』ということですね。

AIメンター拓海

素晴らしい着眼点ですね！その理解で完璧です。大丈夫、一緒に設計すれば必ず現場で使える形にできますよ。

田中専務

分かりました。自分の言葉で言うと、『AIが公開情報を集めて脅威の地図を作り、我々がその地図を検証して使う』ということですね。まずは小さく始めて効果を数字で示していきます。

1.概要と位置づけ

結論を先に述べると、本稿の対象となる自動化システムは、公開されている多様な脅威情報を継続的に収集し、それを構造化して経営や運用の意思決定に直結する形で提供する点で従来と一線を画する。要するに、情報の『量』だけでなく『関係性』を描ける点が最大の革新である。経営層にとって有益なのは、散発的な警告や断片的なIOC（Indicator of Compromise、侵害指標）に振り回されるのではなく、脅威の全体像をもとに優先順位と投資判断を行える点である。現場は日々のノイズに忙殺されるが、経営はリスクの相対順位と投資回収を見なければならない。本稿の技術はその溝を埋めるための『情報工程の自動化と可視化』を提供するものである。

その役割を理解するためにまず前提を押さえる。公開情報のソースには脆弱性報告、セキュリティブログ、レポート、フォーラムなど多様な形態があり、これらは構造化されていないテキストとして存在する。従来の実務では専門家が手作業で情報を取捨選択し、ハンドメイドのリストやスプレッドシートで管理していた。だが技術革新により情報量は指数的に増え、個別対応では追いつかないフェーズに到達している。ここで必要なのは、単なる収集ではなく、情報同士の関連性を自動で抽出し、経営の判断に使える形に落とす能力である。

本システムは、まず大量の公開テキストを継続して収集する収集基盤を持つ。次に自然言語処理（Natural Language Processing、NLP）を用いて主体、ツール、攻撃手法、影響範囲などの要素を抽出する。抽出した要素間の関係性を統合して『脅威ナレッジグラフ（Threat Knowledge Graph）』という形で表現し、検索や問い合わせに応答できる。これにより経営は、単発のIOCのみならず、ある攻撃者が複数の手法を持ち、特定の業界に波及するリスクがあるといった高次の洞察を得られる。

経営的インパクトを整理すると、まず迅速な意思決定が可能になる点がある。脅威の優先順位付けができれば、限られた予算でどの対策に投資するかが明確になる。次に運用効率の向上である。現場の工数を減らし、アナリストがより価値ある作業に注力できるようになる。最後に情報の蓄積が資産化され、将来の対応や学習に寄与する点である。したがって、本技術は単なるツールではなく、情報を資産化するための仕組みである。

以上を踏まえ、以降では先行研究との違い、中心となる技術、検証手法と成果、議論点と課題、今後の調査方向について順に論じる。経営層は本稿を通じて、この種のシステムが現場運用にどう貢献するか、投資判断に必要な観点を掴めるだろう。

2.先行研究との差別化ポイント

先行研究の多くはIndicator of Compromise（IOC、侵害指標）やシグネチャ中心の収集に留まっていた。これらは具体的なハッシュ値やドメイン、IPのような低レイヤの指標を迅速に集める点で有効だが、個々の指標は孤立しやすく、攻撃の全体像や背景的な手口を把握するには不十分である。経営にとって重要なのは、単一の指標ではなく脅威の系統や因果の流れを掴むことであり、従来のIOC中心アプローチはこの点で限界を持つ。つまり差別化は『文脈と関係性の抽出』にある。

また、既存の自動化研究は単一ソースに依存する例が多かった。例えば特定の脆弱性データベースやフィードの解析に特化する手法では、ソース間の矛盾や補完関係を扱えない。対して本システムは多様なOSCTI（Open-Source Cyber Threat Intelligence、オープンソースサイバー脅威インテリジェンス）ソースを同時に扱い、各ソースの情報を統合する仕組みを重視する点で差異がある。これにより情報の網羅性と相互検証性が向上する。

さらに、先行手法はしばしば単発の抽出モデルに依存しており、モデル更新や新タイプ情報の導入が困難であった。本システムはモジュール化されたアーキテクチャを採用し、新しい抽出モジュールやソースを容易に追加できるようにしている点が特徴だ。これにより不断に変化する脅威風景に対して柔軟に適応できる。経営上は初期投資後の継続的な更新コストの低減が期待できる。

最後に差別化の要点は『実用性の重視』である。研究的には高精度を掲げる手法でも、現場で使える形に落とし込めなければ意味がない。本システムは可視化と自然言語での問い合わせ機能を備え、専門家以外でも使いやすいインターフェースを提供することで、実運用での有用性を重視している。経営判断に直結する形でのアウトプットが最大の差別化になる。

3.中核となる技術的要素

技術の中核は三つで整理できる。第一にデータ収集基盤であり、これはRSS、専門ブログ、脆弱性データベース、ソーシャルメディアなど多様なOSCTIソースから定期的に情報を取得する機能である。第二に自然言語処理（NLP、Natural Language Processing）による情報抽出であり、これは文中から主体、ツール、攻撃手法、影響範囲などのエンティティと属性を特定する作業である。第三に抽出した情報を統合して作るKnowledge Graph（KG、知識グラフ）であり、要素間の関係性を表現し検索や推論に使える形式に整える。

NLPの実装では、最新のディープラーニングに基づくエンティティ抽出と関係抽出技術が使われる。これらは教師データが限られる領域のため、データプログラミングや合成アノテーションなどを用いて学習データを補強する工夫がなされている点が重要である。実務的には、抽出精度を上げるためにドメイン固有のパイプラインとルールベースの後処理を組み合わせることが多い。つまり機械学習と人知のハイブリッドで信頼性を担保する。

Knowledge Graphの構築では、異なる表現や同義語を統合する正規化と、関係の曖昧さを扱うための不確実性管理が重要である。ノイズの多いソースをそのまま結合すると誤った推論を生むため、信頼度スコアやソースごとの重みづけが導入される。これにより、経営に提示する際に出力の信頼度を明示でき、意思決定のための根拠として使いやすくなる。

最後に運用面ではモジュール化と並列処理設計が中核である。新しい抽出器やソースを容易に追加できる拡張性と、大量データをタイムリーに処理するための並列化は、実運用での成否を分ける要素である。経営はこれを『将来の拡張性と保守コストの低さ』として評価すべきである。

4.有効性の検証方法と成果

有効性の検証は定量評価と定性評価の両面で設計される。定量評価では抽出精度（Precision/Recall）、関係抽出の正確さ、ナレッジグラフのカバレッジなどの指標が用いられる。これらは標準的な検証データセットやドメイン専門家のラベリングを用いて計測される。実験により、多数の公開レポートから得られるエンティティや関係の数が従来比で大幅に増加することが確認された。

定性評価は実運用を想定したケーススタディにより行われる。具体的には、特定の攻撃者や手口の追跡、脆弱性の波及予測、対応優先度の決定などのシナリオを設定し、人間のアナリストがシステム出力を参照して意思決定を行う際の効果を観察する。結果として、対応までの時間短縮や誤対応の低減、及びアナリストのフォーカスが向上する実例が報告されている。

また、システムの拡張性や継続的学習の効果も検証された。モジュール化された設計により、新たな情報源や抽出器を追加しても他部分に影響を与えずに運用できることが示された。これは経営上、初期投資後の段階的拡張が可能であり、費用対効果を段階的に確かめながら導入を進められることを意味する。リスクが限定される点は重要な設計勝因である。

総じて評価は実務上の改善効果を示唆するが、精度や信頼度はソースの質やドメイン依存で変動するという現実的な制約も明らかになった。したがって経営判断としては、本技術を万能と見なすのではなく、既存の人手プロセスと組み合わせる『補助的な情報資産化技術』として位置づけることが現実的である。

5.研究を巡る議論と課題

まず一つ目の課題はデータ品質である。公開ソースには誤報や噂、話題性に偏った情報が混在しており、それらをそのまま統合すると誤った結論につながる恐れがある。ソースの信頼性評価やファクトチェック機構を如何に組み込むかが重要であり、単なる収集では解決できない問題である。経営はこの点をリスクとして認識し、検証体制への投資を検討すべきである。

二つ目はプライバシーと法的制約の問題である。公開情報であっても、その利用や統合の仕方によっては法規制や契約上の制約に抵触する可能性がある。特に外部データと自社データを結びつける際には十分なガバナンスが必要である。経営は法務部門と連携して運用ルールを明確にする責務がある。

三つ目はモデルの更新と維持管理のコストである。脅威環境は速やかに変化するため、抽出モデルやルールの継続的な改良が必要であり、そのための人的リソースやデータ作成コストを見積もる必要がある。これを怠ると精度低下と現場の信頼喪失を招く。したがって初期投資だけでなく運用予算を含めた総所有コスト（TCO）の管理が求められる。

最後に説明可能性の課題がある。経営は意思決定の根拠を求めるため、AI出力の説明性が重要になる。ナレッジグラフは可視化に有利だが、グラフから導かれた優先度や推奨の理由を明瞭に説明する仕組みが必要である。これがないと経営はシステムを信用しにくく、導入効果が半減する。

6.今後の調査・学習の方向性

今後の研究は主に五つの方向で進むべきである。第一にソース信頼性評価の高度化であり、自動的に情報源の信頼度を算出する手法の確立が必要である。第二に少量データで高精度を出すためのデータ拡張や合成ラベリング技術の向上である。第三に説明可能性（Explainability）の向上であり、出力の根拠を可視化して経営判断に耐える形にする研究が重要である。これらは実務導入の鍵である。

第四に人とAIの協調ワークフロー設計である。AIが示す候補をどのように人が検証し、フィードバックとして学習ループに組み込むか。その運用設計が整わなければ現場での定着は難しい。第五に運用ガバナンスと法規制対応であり、これを自動化技術と整合させるための実務基準作りが急務である。経営はこれらを長期的投資の視点で検討すべきである。

結びに、経営が取るべき実務的アプローチは段階的導入である。まずは限定ソースでPoCを行い、効果を数値化してから拡張する。このアプローチによりリスクを限定しつつ、効果検証に基づいた拡張が可能になる。最終的には情報を資産化し、定量的なリスク管理の基盤に変えていくことが期待される。

検索用キーワード（英語）

Threat Knowledge Graph, Threat Intelligence, Open-Source Cyber Threat Intelligence, Knowledge Graph for Security, Threat Extraction, ThreatKG

会議で使えるフレーズ集

現場向けには「まずは限定スコープでPoCを行い、出力の精度と運用コストを定量的に評価しましょう」。法務向けには「公開情報の統合にはガバナンスが必要で、利用方針の明確化をお願いします」。投資判断には「期待される工数削減、被害低減効果、及び継続的な更新コストを比較して総所有コストで評価しましょう」といった表現が使える。

参考文献: P. Gao et al., “THREATKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management,” arXiv preprint arXiv:2212.10388v2, 2024.

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

オープンソース脅威インテリジェンス収集と管理のためのAI駆動システム

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

検索用キーワード（英語）

会議で使えるフレーズ集

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

オープンソース脅威インテリジェンス収集と管理のためのAI駆動システム

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

検索用キーワード（英語）

会議で使えるフレーズ集

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ