
拓海先生、お忙しいところ恐縮です。最近うちの現場で「音声でお客様の要望を即判定する」と盛り上がっているのですが、学習データにない要望へどう対応するのかが不安でして、よくわかっていないんです。

素晴らしい着眼点ですね!大丈夫です、一緒に整理しましょう。要点を3つで説明します。まず、学習で見ていない意図(インテント)にどう気づくか。次に、テキストが少ししかない状態で音声を扱う方法。最後に導入時の現実的な投資対効果です。

なるほど。で、現場で言うところの「知らない要望」が出たときに、それを見逃さない仕組みが欲しいのですが、具体的にどうするのですか?

ここで論文が示すのは、音声だけで学習したモデルに加えて、テキストから作った音声表現を掛け合わせる方法です。要点は三つ。1) 既存の音声モデルを土台にする、2) テキストを音声化して埋め込み(embedding)に変換する、3) コサイン類似度(cosine similarity)で未知インテントに近いか判定する、です。こうすれば学習で見ていないインテントにも対応しやすくなりますよ。

それって要するに、テキストを少し用意すれば音声だけのモデルでも未学習の要望に答えられるということですか?これって要するに、学習していないインテントにも対応できるということ?



