
拓海先生、最近社員から『AIで情報発信を多言語化すべきだ』と急かされまして、何から手を付ければ良いのか見当がつきません。そもそも機械で正確に医療情報を訳せるものなんですか。

素晴らしい着眼点ですね!大丈夫、翻訳の話は順を追えば必ずわかりますよ。今回取り上げる研究はTICO-19という取り組みで、COVID-19に関する重要な情報を多数の言語に訳すためのデータと評価基盤を公開したものです。

データや評価基盤というのは、要するに翻訳モデルを作るための『教材』と『テスト問題』みたいなものかね。

その通りです!比喩で言えば、翻訳モデルは職人で、TICO-19はそのための見本帳(translation memories)と検定試験(benchmark)を提供したイメージですよ。これにより新しい職人が早く育つ、つまり機械翻訳の品質が短期間で改善できるんです。

なるほど。特に注目すべき点は何でしょうか。うちの設備説明書や注意喚起を翻訳させたいのですが、現場で使えるレベルになるか気になります。

ポイントを三つにまとめますね。第一に、TICO-19は低リソース言語──Low-resource languages(LRL)──つまりデータが少ない言語にも焦点を当てています。第二に、翻訳メモリ(Translation Memory, TMX)を用意しており、人手の翻訳作業を効率化できます。第三に、専門領域である医療情報に特化したベンチマークを公開しているため、品質の追跡がしやすいのです。

これって要するに、重要な医療情報を地方の言語やマイナーな言語にも正しく届けられるようにするための『共通の教材と検査』を作ったということ?

まさにその通りですよ。難しい話を一言で言えば『教材と検査をオープンにして、世界中の研究者や翻訳者が同じ土俵で品質改善に取り組めるようにした』ということです。これがあると、現場での導入判断もデータに基づいてできますよ。

投資対効果で言うと、まず何を整備すれば費用対効果が出やすいですか。うちのようにITに詳しくない組織でも扱えますか。

大丈夫です。一緒にやれば必ずできますよ。現実的には三つの段階で進めると費用対効果が出やすいです。第一にコア文書の選定と既存翻訳の収集、第二に翻訳メモリの整備、第三に品質評価による運用ルール作りです。技術は外部サービスを使えば良く、内部は運用とチェック体制の整備に集中できますよ。

わかりました。では、まとめると……(自分の言葉で)TICO-19は、医療分野の重要情報を多言語で安全に配るための『教材と試験問題』を公開することで、翻訳の品質をみんなで引き上げられる仕組みを作った、ということで間違いないですか。

完璧です!その理解があれば、次は自社文書に合わせた優先言語の選定と、外部パートナー選びに進めましょう。大丈夫、一緒に進めれば必ず成果につながりますよ。
