印尼语是一种凝结的语言,因为它具有复杂的单词形成过程。因此,该语言的翻译模型需要一种甚至低于单词级别的机制,称为子字级别。自词汇量爆炸以来,这种复合过程导致了一个罕见的单词问题。我们提出了一种解决神经机器翻译(NMT)系统的唯一单词问题的策略,该系统将印度尼西亚语用作一对语言。我们的方法使用基于规则的方法将单词转换为其根部并伴随词缀以保留其含义和上下文。使用基于规则的算法具有更多优势:它不需要语料库数据,而仅应用标准的印尼规则。我们的实验证实了这种方法是实用的。它将词汇的数量大大减少到57%,在英语到印度尼西亚翻译上,此策略在不使用此技术的类似NMT系统上提供了多达5个BLEU点的改进。
translated by 谷歌翻译