
田中専務
拓海先生、最近若手からこの論文の話を聞きましてね。機械翻訳で『分割』と『生成』を同時に学ぶとは、要するに何が変わるのでしょうか。

AIメンター拓海
素晴らしい着眼点ですね!大丈夫、簡単に整理しますよ。従来は単語を小さな単位に分ける作業を先にやってから翻訳していましたが、この論文はその二つを一つのモデルで同時に学ぶんです。結果として現場での翻訳品質や柔軟性が上がる可能性があるんですよ。

田中専務
なるほど。で、その分割っていうのはBPEとかを指すのでしょうか。うちの現場で言えば、まずデータ整備をしてからモデルに渡しているイメージです。

AIメンター拓海
その通りです。BPEはByte Pair Encodingの略で、事前に語を分割する手法です。ただ、この論文では分割と翻訳を同時に学ばせることで、翻訳にとって最適な分割を自動で見つけられる点が違います。つまり前処理にかける手間や後戻りのコストを減らせる可能性がありますよ。

田中専務
これって要するに、分割の仕方を翻訳の採点で決めるようなものですか。適切に分ければ精度が上がる、と。
