4 分で読了
0 views

Multilingual Pretraining for Scalable On-Device ASR

(多言語事前学習によるスケーラブルなオンデバイスASR)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海さん、最近うちの部下が「多言語の事前学習で音声認識が良くなる」と言うのですが、正直ピンときません。要はうちの工場で使えるんですか?

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、一緒に整理しましょう。結論から言うと、多言語事前学習は、データが少ない言語でも音声認識の精度を上げ、オンデバイスでの利用を現実的にする効果がありますよ。

田中専務

でも実務で気になるのはコストです。学習に大きなサーバーを使うなら意味がない気がしますが、その点はどうでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!今日は要点を三つで説明します。第一に、事前学習(pretraining)は一度大きなモデルを作って共有するコストで済むため、各現場では小さな微調整(fine-tuning)だけで済みます。第二に、オンデバイスの計算量を減らす工夫が論文では示されています。第三に、稀な単語の認識改善が確認され、業務用語にも効く可能性が高いです。

田中専務

なるほど。専門的な言葉で言うと何を使うんですか?たとえばうちの現場語をきちんと学習できますか。

AIメンター拓海

素晴らしい着眼点ですね!論文ではAutomatic Speech Recognition (ASR) 自動音声認識のために、Recurrent Neural Network Transducer (RNNT) RNNT損失という枠組みで事前学習を行い、その後にMinimum Word Error Rate (MinWER) 最小単語誤り率損失で微調整しています。簡単に言えば、まずは一般的な音声の法則を広く学ばせ、次に自社用語だけを重点的に調整する流れです。

田中専務

これって要するに、まず大勢の言語で基礎を作っておいて、その貯金を使ってうちの言葉を少しだけ学ばせるということ?

AIメンター拓海

その通りです!素晴らしい要約ですよ。事前学習は貯金、微調整は投資先の選定です。重要なのは貯金の質で、論文は多言語で広く学ばせることで貯金の質が上がり、結果として少ないデータでも大きな効果が出ると示しています。

田中専務

なるほど。ただ「多言語で学ぶ」と「うち専用に学ぶ」の間で齟齬が出るリスクはないですか。専門用語が混ざると逆に誤認するのではと心配です。

AIメンター拓海

素晴らしい着眼点ですね!論文はその点も扱っています。事前学習は基礎表現を作るだけで、最終的な性能はその後のモノリンガル微調整(monolingual fine-tuning)で決まります。つまり、貯金は汎用力を上げるために使い、現場用語は別途調整して上書きするイメージで問題ありません。

田中専務

分かりました。最後に一つ、もしこれをうちで試すなら何を最初にやれば良いでしょうか。現場の抵抗もありますし、投資対効果を示したいのです。

AIメンター拓海

素晴らしい着眼点ですね!実務で始めるなら三段階で進めましょう。まずは少量の現場音声を集め、ベースモデルの微調整でWERR(Word Error Rate Reduction)を示す。次にオンデバイスでの推論負荷を測り、最後に稀語(rare-word)改善の事例を一つ作る。これで費用対効果が明確になりますよ。

田中専務

分かりました。要するに、まずは小さく始めて効果を見せる、それで行けそうなら拡大する、ということですね。自分の言葉で言うと、基礎は広く学ばせて、最後にうち専用に手を入れて性能を出すという流れで進めます。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
瞳孔追跡のためのイベントカメラフレームワーク
(A Framework for Pupil Tracking with Event Cameras)
次の記事
自動車サプライチェーンの異種時系列による途絶予測
(Forecasting Automotive Supply Chain Disruption with Heterogeneous Time Series)
関連記事
少量データ下の物体検出に関するディープラーニング総説
(A Survey of Deep Learning for Low-Shot Object Detection)
自己注意を軸としたトランスフォーマーとその衝撃
(Attention Is All You Need)
物理を組み込んだDeepONetによる非線形放物型方程式の解作用素の学習
(Learning the solution operator of a nonlinear parabolic equation using physics informed DeepONet)
ストレンジオン物質の液滴モデル
(Strangeon Matter in a Liquid Drop Model)
モデル変異による深層学習フレームワークのテスト:現状はどこまでか?
(Deep Learning Framework Testing via Model Mutation: How Far Are We?)
地球観測データによる深層学習のクラウド→GPUスループット最適化
(Optimizing Cloud-to-GPU Throughput for Deep Learning With Earth Observation Data)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む