失調性発話（ディサースリア）話者の未登録話者認識をプロトタイプベース適応で改善する（Enhancing Dysarthric Speech Recognition for Unseen Speakers via Prototype-Based Adaptation）

田中専務

拓海先生、お忙しいところ恐縮です。部下から『難病の方の音声認識を入れたら業務効率が上がる』と言われたのですが、そもそも失調性発話って何が難しいのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！失調性発話（dysarthric speech）は発音が安定せず個人差が非常に大きいので、普通の音声認識モデルだと未学習の話者で性能が大きく落ちるんですよ。

田中専務

つまり、うちの現場で一人ひとりチューニングしないといけないという話ですか。それだとコストが心配です。

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。今回紹介する手法はプロトタイプベースで、未見の話者にも追加の大規模な微調整（fine-tuning）をほとんど必要としないアプローチなんです。

田中専務

へえ、追加学習がいらないということは導入が楽になる。だが実務で使える精度が出るのか、ROI（投資対効果）が気になります。

AIメンター拓海

良い質問です。要点は三つですよ。1) 話者ごとの発音特徴を”プロトタイプ”として保持する、2) HuBERTで良質な特徴を抽出して代表値を作る、3) さらに対照学習（supervised contrastive learning）で特徴の分離を強化する、これで未見話者の誤認識を大きく減らせますよ。

田中専務

これって要するに、話し方の“代表パターン”をあらかじめ用意しておいて、それに当てはめることで追加学習なしに対応できるということですか？

AIメンター拓海

まさにその通りです！補足すると、プロトタイプは単なる平均値ではなく、語単位で作るため発音のズレや抜け、挿入といった誤りにも耐性がありますよ。だから少量のテスト発話で高精度に分類できるんです。

田中専務

実際の数値での改善はどれくらいなのか、導入判断に必要な指標で教えてください。WER（Word Error Rate）での改善が分かりやすいと思います。

AIメンター拓海

実験では未見話者に対して、話者独立（speaker-independent）モデル比で平均WERが約15.6ポイント改善しました。さらに対照学習を追加すると約1.2ポイントの追加改善が見られ、実用上意味のある改善幅です。

田中専務

少量データでそこまで改善するなら投資対効果が見えます。導入時の現場負担や継続運用で気をつける点はありますか。

AIメンター拓海

本質的な注意点は二つです。ひとつは失調の程度が時間とともに変わるとプロトタイプの再作成が必要になること、もうひとつは語単位のプロトタイプは語彙カバレッジに依存するので、業務用語に合わせた追加データがあるとさらに安定しますよ。

田中専務

分かりました。要は継続的な軽いメンテナンスと、現場語彙の少しの補強で実用域に入るということですね。ありがとうございます、まずは社内で検討してみます。

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。必要なら短時間での概算費用と実証実験（PoC）計画をまとめますので、次回お渡ししますね。

田中専務

では自分の言葉でまとめます。プロトタイプベースで語ごとの代表パターンを作れば、未見の発話でも追加学習を最小限にして精度を上げられる。HuBERTで良い特徴を取って対照学習でさらに磨けば実用になる、と理解しました。

事前学習済みトランスフォーマーを用いたS-Prompts学習：ドメイン増分学習に対するオッカムの剃刀（S-Prompts Learning with Pre-trained Transformers: An Occam’s Razor for Domain Incremental Learning）