4 分で読了
0 views

プロンプトの形式が評価を左右する:In-Context Learningの一貫した評価へ

(Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近「プロンプトの形式で結果が変わる」という話をちらっと聞いたのですが、要するに何が問題なのですか。うちの工場に何か関係ありますか。

AIメンター拓海

素晴らしい着眼点ですね! 簡単に言うと、AIに仕事を頼むときの「指示書」の書き方で、成績が大きく変わるんですよ。具体的には、同じ例を与えても書式や並べ方を変えるだけで、モデルの判断がばらついてしまうんです。

田中専務

それは困りますね。うちのように現場データを少しだけ渡して判断させるような使い方だと、信頼できない結果になりかねないということでしょうか。

AIメンター拓海

その通りです。ここで言うのはIn-Context Learning(ICL、文脈内学習)という使い方で、モデルに少数の例を示して新しい仕事を教える手法です。しかし提示の仕方、すなわちプロンプトテンプレートによって性能が大きく左右されるという問題があるんですよ。

田中専務

じゃあ、良いテンプレートを見つければ安定するんですか。テンプレートというのは、具体的にどんな違いがあるのですか。

AIメンター拓海

良い質問ですね。テンプレートとは例の並べ方、ラベルの置き方、質問文の書き方など全体の書式のことです。例えばラベルを先に書くか後に書くか、区切り文字を何にするかで、同じAIでも結果が変わります。要点は三つ、認識の揺らぎ、非転送性、対処法の提示です。

田中専務

非転送性という言葉が気になります。うちが見つけた良いテンプレートを別の部署で使ってもうまくいかない、ということですか。これって要するに、テンプレートは状況依存だということ?

AIメンター拓海

まさにその通りです!素晴らしい着眼点ですね!テンプレートの最良解はモデルの種類、与える例の数、選び方(example selection)や推論方法によって変わり、ある場面で最適だった形式が別の場面では悪影響を及ぼすことがあるんです。だから一つの万能テンプレートは期待できないんですよ。

田中専務

では現場で使える現実的な対策はありますか。テンプレートを毎回試すのは時間と費用がかかりますから、そこで投資対効果を考えたいのです。

AIメンター拓海

安心してください。ここでも要点は三つです。まず、複数のテンプレートで予測を集約するTemplate Ensembles(テンプレートアンサンブル)という方法が有効です。次に、テンプレート評価を小規模で自動化して最悪の崩壊を避ける運用を組むこと、最後にモデルや推論法に応じたテンプレートの簡易ルールを定めることです。

田中専務

なるほど。それなら最初は小さく試して効果が見えたら広げる、という段階踏みができそうです。実務的にはテンプレートを何個くらい用意すればいいのですか。

AIメンター拓海

実務的な目安としては5〜10個程度の多様なテンプレートを試してアンサンブルするのが効果的です。重要なのは多様性で、似たものばかり集めるよりも、ラベル表記や区切り方が異なるテンプレートを混ぜるとロバスト性が上がります。大丈夫、一緒にやれば必ずできますよ。

田中専務

よくわかりました。要するに、プロンプトの書き方でAIの判断が変わるので、テンプレートを複数用意して結果をまとめ、少しずつ運用で安定させるのが現実的だと理解しました。

論文研究シリーズ
前の記事
時間依存の波のランナップ予測のための物理情報を取り入れた機械学習モデル
(A Physics-informed machine learning model for time-dependent wave runup prediction)
次の記事
木々の向こうの道路を見通す
(Seeing the Roads Through the Trees)
関連記事
潜在的未観測交絡を明示的に合成するブロック階層的祖先サンプリング
(Addressing pitfalls in implicit unobserved confounding synthesis using explicit block hierarchical ancestral sampling)
オープンソース生成AIの近〜中期的リスクと機会
(Near to Mid-term Risks and Opportunities of Open-Source Generative AI)
ベイズ隠れマルコフモデルを用いた保険損失展開係数の同時推定 — Joint estimation of insurance loss development factors using Bayesian hidden Markov models
GPT-4は安全とは言えないほど賢い
(GPT-4 IS TOO SMART TO BE SAFE: STEALTHY CHAT WITH LLMS VIA CIPHER)
層横断情報発散に基づくメタ更新戦略
(CLID-MU: Cross-Layer Information Divergence Based Meta Update Strategy for Learning with Noisy Labels)
規制フレームワークの落とし穴をAIアライメント理論で読む
(Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks)
関連タグ
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む