システムコール言語モデリングとロバストなアンサンブル法によるホスト型侵入検知システム設計(LSTM-Based System-Call Language Modeling and Robust Ensemble Method for Designing Host-Based Intrusion Detection Systems)

田中専務

拓海さん、最近部下が「LSTMを使ったシステムコールの言語モデルで侵入検知を」と騒いでおりまして、何を目指しているのか端的に教えていただけますか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、一緒に整理すれば必ずわかりますよ。要点は三つで、1) システムコールを言葉と見なして振る舞いを学ぶ、2) 長期依存を扱えるLSTMを使う、3) 誤報(false alarm)を減らすために複数判定をまとめる、ということです。

田中専務

なるほど、システムコールを“言葉”と言うのは分かりますが、うちの現場で言うとどの辺が変わるのですか。投資対効果の観点で教えてください。

AIメンター拓海

素晴らしい視点ですね!投資対効果は三点で考えられます。第一に、従来のルールベースでは見えない異常を補足できる可能性、第二に、誤報が少なければ現場の負担が減ること、第三に、学習で継続改善が期待できるため長期的に費用対効果が高まる点です。

田中専務

そうしますと、これって要するに「プログラムの振る舞いを文章として学習して、変な文章を検出することで攻撃を見つける」ということですか。

AIメンター拓海

その理解でほぼ合っていますよ!言い換えれば、プログラムが出すシステムコール列を“文”と見なし、次に来る言葉を予測して確率が低い配列を異常と判定するわけです。ただし現実はノイズが多いので、単独判定だと誤報が出やすい点に注意する必要があります。

田中専務

誤報が多いのは問題ですね。現場が疲弊してしまう。具体的にはどのようにして誤報を減らすのですか。

AIメンター拓海

いい質問ですね!論文では複数の閾値判定器を作って、その結果を“リーキーReLU”という簡単な合成ルールでまとめています。直感的には、複数の弱い目を合成して強い目を作るイメージで、たくみに“非常に正常”と判断されるシーケンスを蓄積することで誤報を抑えます。

田中専務

それは導入してみる価値がありそうです。運用面で気を付ける点はありますか。現場はクラウドも苦手なので、最初の一歩が知りたいのです。

AIメンター拓海

素晴らしい着眼点ですね!導入の第一歩は可視化とパイロット運用です。最初に学習用の“正常データ”を短期間で収集し、まずは監視モードで誤報の頻度を確認します。その結果を踏まえて閾値や合成ルールをチューニングすれば現場負荷を抑えられますよ。

田中専務

わかりました。要点を自分の言葉で確認します。システムコールの並びを文章だと見て、それを予測するモデルで“普通でない並び”を検出し、誤報を減らすために複数の小さな判定をまとめて確度を上げる、と理解してよろしいですか。

AIメンター拓海

素晴らしい着眼点ですね!まさにその通りです。大丈夫、一緒にやれば必ずできますよ。まずは短期のパイロットで可視化し、三つの要点(言語モデル化、LSTMで長期依存学習、アンサンブルで誤報低減)に基づいて進めましょう。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む