
拓海先生、お忙しいところ失礼します。部下からAIにウェブの記事を勝手に参照されている可能性があると言われまして。これって要するに、うちのホームページの文章がAIに“丸ごと取られて”しまうということですか?

素晴らしい着眼点ですね!確かに最近の大規模言語モデル(Large Language Models, LLMs)は、検索結果を取りに行ってそのまま回答に使うことがあり、結果としてウェブ上の知的財産(IP)が第三者の商用サービスに取り込まれてしまうリスクが出ていますよ。

うーん、でもそもそもユーザーが情報を得やすくなるんだから、我々にとって悪いことばかりではないのではないですか。要するにそのまま持って行かれると収益が減る、ということですか?

大丈夫、一緒に整理しましょう。要点は3つです。1) ユーザーがLLMに頼ると、直接サイトに来なくなることでトラフィックや広告収入が減る。2) コンテンツが無断で要約・再配布されるとオリジナルの価値が毀損される。3) 従来の設定ファイルだけでは防げない攻撃が出てきている、ということです。

設定ファイルとはrobots.txtのようなものですよね。それでも効かないのですか?現場の負担を増やしたくないのですが。

その通りです。robots.txtやアクセス制限はルールとしては存在しますが、守らせる仕組みが無いと大型のAIサービスは従わないことがあります。そこで今回の研究は、コンテンツ制作者側が自分でできる“能動的な防御”を提案しています。専門用語が出てきたら随時分かりやすく例で説明しますね。

具体的にはどんな方法で防ぐのですか。技術的な変更が必要なら外注コストが気になります。

本研究は、ウェブページ自体の「構造と文脈」を最適な位置に配置し直すという考え方です。これを行うことで、モデルが検索して得た断片から正確に情報を抽出しにくくするのです。外注せずにCMS上でテンプレートを少し工夫するだけで効果が得られる場合もありますよ。

これって要するに、ページの見せ方を変えてAIにとって読み取りづらくするということですか?それで法的手続きに頼らずに防げるという認識で合っていますか?

その理解で問題ありません。要点は三つです。1) 見せ方を最適化することで無断取り込みの成功率を下げる。2) 従来の設定ファイルに依存しないため運用が現実的である。3) LLM(Large Language Models, 大規模言語モデル)自身の意味理解能力を利用して防御を成立させる、という点です。

分かりました。自分の言葉で説明すると、ページの“見せ方”を工夫してAIが丸ごと持ち去れないようにすることで、我々の収益や著作権を守る手法、ということでよろしいですね。


