Abstract
Multilingual neural machine translation (MNMT) aims at using one single model for multiple translation directions. Recent work applies non-autoregressive Transformers to improve the efficiency of MNMT, but requires expensive knowledge distillation (KD) processes. To this end, we propose an M-DAT approach to non-autoregressive multilingual machine translation. Our system leverages the recent advance of the directed acyclic Transformer (DAT), which does not require KD. We further propose a pivot back-translation (PivotBT) approach to improve the generalization to unseen translation directions. Experiments show that our M-DAT achieves state-of-the-art performance in non-autoregressive MNMT.
Abstract (translated)
多语种神经机器翻译(MNMT)的目标是使用单一模型来处理多个语言之间的翻译方向。最近的工作应用了非自回归Transformer以提高MNMT的效率,但需要昂贵的知识蒸馏(KD)过程。为此,我们提出了一种用于非自回归多语种机器翻译的M-DAT方法。我们的系统利用了近期发展的有向无环变压器(DAT),这种方法不需要知识蒸馏。此外,我们还提出了一种枢轴回译(PivotBT)的方法来改进对未见过的翻译方向的一般化能力。实验表明,我们的M-DAT在非自回归MNMT中达到了最先进的性能。 具体来说: - MNMT旨在使用一个单一模型来进行多种语言之间的相互翻译。 - 最近的研究工作利用了非自回归Transformer技术以提高翻译效率,但这种方法需要复杂且计算成本高昂的知识蒸馏过程。 - 我们提出了一种新的方法M-DAT,它基于有向无环变压器(DAT)架构,无需进行知识蒸馏步骤就能实现高效的多语言翻译。 - 此外,我们还引入了枢轴回译技术来增强模型对新出现的、之前未见过的语言配对之间的翻译能力。 - 实验结果表明,我们的方法在非自回归MNMT领域取得了当前最佳的效果。
URL
https://arxiv.org/abs/2502.04537