LLMの力を引き出す―Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling

田中専務

拓海先生、最近部下にこの論文を読めと言われましてね。題名は長いんですが、要は我が社の検索システムに関係あるんでしょうか。正直、難しそうで尻込みしています。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、順を追って説明しますよ。結論を先に言うと、この研究は大規模言語モデル(LLM: Large Language Model/大規模言語モデル)の文章生成力を検索(Dense Retrieval/密ベクトル検索)に活かすための学習法を提案しているんです。

田中専務

文章を作るAIの力を検索に使う、というのは直感的です。ただ、我々は現場で大量の文書から一番関連ある資料を引きたいだけです。投資対効果という観点で、具体的に何が良くなるのですか。

AIメンター拓海

良い質問です。要点は三つです。第一に、LLMが持つ豊かな言語的知識で文書の本質的な意味をより濃縮した表現にできるため、検索のヒット精度が向上できるんですよ。第二に、生成能力を学習目的の補助に使うことで、従来の埋め込み(Embedding/分散表現)が弱い箇所を補えるんです。第三に、実装は既存のデュアルエンコーダ(dual encoder/二重符号器)方式をベースにできるので、検索速度やコスト面の負担が大きく変わらない可能性があります。

田中専務

なるほど。で、その具体的な技術は難しいのでしょうね。現場の担当者が扱えるものですか。これって要するに生成AIの“文章を作る力”を検索用のベクトルに落とし込むということ?

AIメンター拓海

その通りです!素晴らしい要約ですね。具体的には“Query Likelihood(QL: クエリ尤度)”という考え方を補助目的で使い、モデルに『この文書がこんな質問を生み出す確率はどうか』を学ばせます。結果として、文書を表すベクトルがより検索に適した方向へ学習されるのです。

田中専務

技術用語が出てきましたね。QLは生成で使うものと理解しましたが、運用コストが高くなったり、モデルが検索に不向きになるような落とし穴はないですか。

AIメンター拓海

良い懸念です。確かに生成だけでランキングする方法はコスト高であり、複雑さも増します。だから本研究は生成能力を直接ランキングにするのではなく、生成に基づく学習を“補助タスク”として使い、最終的な検索はデュアルエンコーダとコントラスト学習(contrastive learning/対比学習)で行うという落とし所を取っています。これにより実運用のコストを抑えつつ精度を引き上げることができるのです。

田中専務

実装の段取りも気になります。導入にあたって我が社でまずやるべきことは何でしょうか。

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。要点を三つで示します。第一に、現行検索で重要なデータ(FAQ、手順書、見積もり履歴など)を整備すること。第二に、まずは小さなコーパスでLLM-QLの効果を検証すること。第三に、実運用ではデュアルエンコーダ中心で高速検索を行い、必要に応じてQL補助学習を定期的に行う運用設計にすることです。

田中専務

なるほど。実験によって数字で示せれば役員会でも説明しやすいですね。最後に、これを一言で言うと我々は何を導入することになるのですか。

AIメンター拓海

要するに、既存の高速検索エンジンを残しつつ、LLMの“生成を通じた学習力”を使って文書の表現力を高める仕組みを導入する、ということです。小さく試し、成果が出たら段階的に拡張して行きましょう。

田中専務

分かりました。自分の言葉で言い直すと、LLMの文章生成の力を学習の補助に使って、検索に使う文書ベクトルをより賢くするということですね。まずは小さなコーパスで効果を測って、改善が見えたら投資を進める。これで行きます、拓海先生。ありがとうございました。

1.概要と位置づけ

結論を先に述べる。本研究は大規模言語モデル(LLM: Large Language Model/大規模言語モデル)の生成能力を、検索システムの中核である密ベクトル検索(Dense Retrieval/密検索)の表現学習に活用することで、検索精度を向上させる手法を示した点で大きく変えた。従来はLLMの生成力と密検索は別個に扱われることが多く、生成を直接ランキングに使うと計算コストが膨らむという問題があった。だが本研究は生成に基づく「クエリ尤度(Query Likelihood/QL) modeling」を補助学習タスクとして導入し、デュアルエンコーダ+対比学習を主軸に据えることで、実運用のコストと精度の両立を目指している。

基礎的には、文書がある質問を生み出す確率を評価する考え方を取り入れることで、文書ベクトルが検索にとって有用な情報をより濃縮して持つようになる。これは言い換えれば、単語や局所的な意味だけでなく、文書全体が持つ“想像されうる質問”を通じて意味を凝縮することで、検索時のミスマッチを減らす手法である。実用面では、検索速度を担保するデュアルエンコーダ構成を維持する点が経営判断上好ましい。

企業で検討する際の位置づけは、既存検索の部分改善か試験的なPoC(概念実証)から始められる点である。全置換ではなく、段階的にQL補助学習を入れて評価し、効果が出れば本格導入へと移行するのが現実的である。投資対効果は小さなコーパスで明示的に評価可能であり、導入リスクを低減できる。

検索の現場価値としては、FAQや手順書、設計文書のように問いと応答のペアが明確な領域で即時効果が期待できる。逆に、極めて専門的でドメイン固有の語彙が多い場合は、事前に追加データでの学習が必要である点に留意すべきである。

この節の要点は三つである。LLMの生成力を補助学習に活用する、新たな表現学習で検索品質を改善する、実運用を意識した設計で導入コストを抑える、である。

2.先行研究との差別化ポイント

従来研究では、検索タスクに対して大きく二つのアプローチがあった。一つは生成モデルをそのままランキングに用いる方法であり、もう一つは事前学習済みの言語モデルから埋め込みを抽出して検索に使う方法である。生成を直接ランキングに使う方法は自然言語の豊かさを捉え得る一方で、計算コストや多段階の評価で実務性に乏しい。

一方、埋め込みベースの手法は検索速度とスケーラビリティで優れるが、モデルが持つ生成的知識を活かし切れない傾向があった。本研究は差別化点として、生成能力を直接使うのではなく「クエリ尤度(Query Likelihood/QL) modeling」を補助タスクとして導入し、表現学習段階でLLMの知識を取り込むアプローチを採用したところにある。

加えて、文書から単一ベクトルへ意味を凝縮する際の具体的工夫として、Attention Stop(AS)とInput Corruption(IC)という戦術的手法を導入している点も独自性である。これらはLLMの生成挙動を抑制・調整することを目的とし、文書表現の安定化に寄与する。

ビジネス観点では、既存のデュアルエンコーダ基盤を崩さずに精度向上が狙える点が差別化の本質である。つまり、既存投資を守りつつ性能改善を図れる点が企業導入に適する。

検索に関連する英語キーワードとしては、Dense Retrieval、Large Language Model、Query Likelihood、Dual Encoder、Contrastive Learningなどを挙げておくと検索で論文を見つけやすい。

3.中核となる技術的要素

本手法の中核は三つの技術的要素で構成される。第一はQuery Likelihood(QL: クエリ尤度) modelingであり、文書がどの程度あるクエリを生成しうるかを評価する生成的尺度を学習の補助に用いる点である。この補助タスクは直接ランキングするのではなく、文書表現を検索向けに強化するための誘導信号として働く。

第二はAttention Stop(AS)という手法で、これはLLMの自己注意(self-attention)挙動の一部を制御し、長文やノイズのある入力に対して重要な情報を抽出しやすくする工夫である。ASにより文書の核となる情報が埋め込みに反映されやすくなる。

第三はInput Corruption(IC)で、意図的に入力を一部破壊してモデルにロバストな表現を学ばせる技術である。ICはデータの揺らぎや誤記等に強い埋め込みを育てる効果があるため、現場データの雑音に耐えうる検索を実現する。

これらを組み合わせることで、最終的にデュアルエンコーダ+対比学習の方式で高速検索を維持しつつ、LLM由来の高度な意味情報を文書ベクトルに注入できる。導入時にはまず小さなコーパスでASとICの効果を検証することが推奨される。

技術的に重要な点は、生成能力を“補助的に”使うことで、コストと精度のバランスをとっている点である。

4.有効性の検証方法と成果

著者らは二段階の学習プロトコルを用いた。第一段階はQL学習(Query Likelihood learning)で、LLMに文書が生成しうるクエリ分布を学ばせる段階である。第二段階は従来の対比学習(contrastive fine-tuning)で、クエリと文書の正負例を使って検索表現を最適化する。

評価は代表的なベンチマークデータセットを用いて行われ、従来の埋め込みベース手法に比べて有意な精度改善が報告されている。特に、短いクエリで曖昧さがある場合や、文書内に重要な手がかりが散在しているケースで効果が顕著であった。

著者らはASとICがそれぞれ独立して精度を改善し、組み合わせるとさらなる上積みがあると示している。実運用を想定した計算コストの試算でも、対話的に生成を用いる方法ほどのコスト増はないとの報告がある。

ただし、効果のばらつきはドメインによって存在し、専門用語密度の高いコーパスでは追加の微調整が必要である点も明記されている。したがってPoC段階でのドメイン特性評価は必須である。

この研究の成果は、検索エンジンの改善を段階的に進める際に実用的な評価指標と手順を提供している点で価値が高い。

5.研究を巡る議論と課題

本手法には利点がある一方で議論と課題も残る。まず、QLを補助タスクに使う設計は効果的だが、QLの学習データ生成や品質管理が結果に大きく影響する点である。生成に頼る部分が増えるため、誤ったクエリ生成が学習を悪化させるリスクがある。

次に、ASやICのハイパーパラメータはドメイン依存性が強く、汎用的な設定で常に最適とは限らない。実務では各社のデータ特性に応じたチューニングが不可欠である。さらに、LLMの更新やバージョン違いによる性能変動を運用でどう吸収するかも課題である。

運用面では、段階的導入を前提にした設計が提案されているが、実際の社内導入ではデータ整備、評価基準の統一、セキュリティやプライバシーの配慮といった実務的課題を解決する必要がある。特に外部LLMを利用する場合はデータ流出リスクを慎重に評価すべきである。

最後に、評価指標の選定も重要である。単なる検索ヒット率だけでなく、業務上の実効性(担当者の作業時間短縮や誤回答低減)を測る指標で効果検証を行うことが望ましい。

総じて、研究成果は有望であるが、現場導入にあたっては設計・評価・運用の三領域で慎重な取り組みが求められる。

6.今後の調査・学習の方向性

今後の研究と実務の課題は明確である。まず、QL補助タスクの自動化と生成品質の評価手法を確立することが第一である。生成によるノイズを低減し、学習の安定性を高めるための自動フィルタリングや品質スコアリングが求められる。

次に、ドメイン適応の研究を進める必要がある。専門領域の語彙や表現に強いモデルを作るには、少量の追加データで高い効果を出すファインチューニング手法やデータ拡張の工夫が鍵となる。

さらに、運用面ではモデル更新時のリグレッション(性能低下)を検出・回避するための継続的評価パイプラインを整備することが重要である。実際の業務指標と紐づけたA/Bテストを定期的に回す体制が望ましい。

最後に、企業内での導入ガイドライン作成が実務的価値を高める。PoC設計、評価指標、リスク管理、段階的展開のテンプレートを用意することで、経営判断を迅速化できる。

今後のキーワードとしては、Robustness、Domain Adaptation、Quality Filtering、Operationalizationなどが研究・導入の中心になるであろう。

Unleashing the Power of LLMs in Dense Retrieval with Query
Likelihood Modeling
Hengran Zhang, Keping Bi
CAS Key Lab of Network Data
Science and Technology, ICT, CAS
University of Chinese Academy of
Sciences
Beijing, China
zhanghengran22z@ict.ac.cn
bikeping@ict.ac.cn
Jiafeng Guo
CAS Key Lab of Network Data
Science and Technology, ICT, CAS
University of Chinese Academy of
Sciences
Beijing, China
guojiafeng@ict.ac.cn
Xiaojie Sun
CAS Key Lab of Network Data
Science and Technology, ICT, CAS
University of Chinese Academy of
Sciences
Beijing, China
sunxiaojie@ict.ac.cn
Shihao Liu, Daiting Shi
Baidu Inc
Beijing, China
liushihao02@baidu.com
shidaiting01@baidu.com
Dawei Yin
Baidu Inc
Beijing, China
yindawei@acm.org
Xueqi Cheng
CAS Key Lab of Network Data
Science and Technology, ICT, CAS
University of Chinese Academy of
Sciences
Beijing, China
cxq@ict.ac.cn
Abstract
Dense retrieval is a crucial task in Information Retrieval (IR) and is
the foundation for downstream tasks such as re-ranking. Recen

hers than the
author(s) must be honored. Abstracting with credit is permitted. To copy otherwise, or
republish, to post on servers or to redistribute to lists, requires prior specific permission
and/or a fee. Request permissions from permissions@acm.org.
Conference acronym ’XX, June 03–05, 2018, Woodstock, NY
© 2018 Copyright held by the owner/author(s). Publication rights licensed to ACM.
ACM ISBN 978-1-4503-XXXX-X/18/06
https://doi.org/XXXXXXX.XXXXXXX
CCS Concepts
• Information systems →Language models; Learning to rank;
Novelty in information retrieval.
Keywords
LLMs for dense retrieval, Query likelihood model
ACM Reference Format:
Hengran Zhang, Keping Bi, Jiafeng Guo, Xiaojie Sun, Shihao Liu, Daiting
Shi, Dawei Yin, and Xueqi Cheng. 2018. Unleashing the Power of LLMs in
Dense Retrieval with Query Likelihood Modeling. In Proceedings of Make
sure to enter the correct conference title from your rights confirmation emai
(Conference acronym ’XX). ACM, New York, NY, USA, 12 pages. https

 many
studies have devised many strategies to enhance the embedding of
LLMs’ global semantic representation. Unlike these works, we focus
on leveraging the generation capabilities of LLMs and unleashing
their potential in document representations for retrieval. Query
likelihood modeling estimates the probability that a document gen-
erates a query as a representation of the document. Therefore, we
propose LLM-QL, which introduces query likelihood modeling in
dense retrieval and aims to adapt LLMs’ generation capabilities for
dense retrieval. In order to condense the semantics of documents
or passages to a single vector, we propose two strategies in LLM-
QL: Attention Stop (AS) and Input Corruption (IC). Overall,
LLM-QL contains two-stage training: query likelihood learning (QL
learning) and contrastive fine-tuning, as detailed in Figure 1. After
experiments, we found that the performance improvement is very
remarkable compared to other baselines. Next, we will show the
details of our L

 than the word-based
QL model, they are much worse than BERT-based retrievers. It is
not surprising since a generative approach may not perform as
well as discriminative models on ranking tasks due to its inability
to capture multi-grade relevance and lack of contrastive learning.
Moreover, ranking with QL estimation by PLMs is cost-prohibitive
to be used for retrieval from a large-scale corpus. Then, do we have
an effective way to leverage the generation capabilities of
LLMs and unleash their potential in document representa-
tions for retrieval?
To this end, we propose LLM-QL, which aims to utilize LLMs’
generation capabilities for dense retrieval. Instead of modeling
relevance matching with a generation process as in [32, 69], we
still employ discriminative modeling with a dual encoder as well as
contrastive learning and incorporate query likelihood modeling as
an auxiliary training task. In this way, the generalization ability of
LLMs can be utilized during maximizing query likelih

会議で使えるフレーズ集

「本件は既存検索を置き換える提案ではなく、LLMの生成的知見を表現学習に注入することで精度を上げる補助的な施策である」と始めると議論がブレない。次に「まずは小さなコーパスでPoCを行い、業務指標で効果を検証してから段階的に拡張する」という導入方針を示すと投資判断がしやすい。最後に「リスク管理としてデータ流出対策と定期的な性能監視パイプラインを確保する」を付け加えると安心感を与えられる。

引用・出典

H. Zhang et al., “Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling,” arXiv preprint arXiv:2504.05216v2, 2025.

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む