サブワード分節的機械翻訳―分割と生成の統一（Subword Segmental Machine Translation: Unifying Segmentation and Target Sentence Generation）

田中専務

拓海先生、最近若手からこの論文の話を聞きましてね。機械翻訳で『分割』と『生成』を同時に学ぶとは、要するに何が変わるのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！大丈夫、簡単に整理しますよ。従来は単語を小さな単位に分ける作業を先にやってから翻訳していましたが、この論文はその二つを一つのモデルで同時に学ぶんです。結果として現場での翻訳品質や柔軟性が上がる可能性があるんですよ。

田中専務

なるほど。で、その分割っていうのはBPEとかを指すのでしょうか。うちの現場で言えば、まずデータ整備をしてからモデルに渡しているイメージです。

AIメンター拓海

その通りです。BPEはByte Pair Encodingの略で、事前に語を分割する手法です。ただ、この論文では分割と翻訳を同時に学ばせることで、翻訳にとって最適な分割を自動で見つけられる点が違います。つまり前処理にかける手間や後戻りのコストを減らせる可能性がありますよ。

田中専務

これって要するに、分割の仕方を翻訳の採点で決めるようなものですか。適切に分ければ精度が上がる、と。

AIメンター拓海

まさにその通りですよ！素晴らしい着眼点ですね。翻訳の

スコアマッチングによる徐々に非凸な画像事前分布の学習（Learning Gradually Non-convex Image Priors Using Score Matching）