智能论文笔记

Reduce Indonesian Vocabularies with an Indonesian Sub-word Separator

Mukhlis Amien , Feng Chong , Huang Heyan

分类：自然语言处理

2022-07-01

印尼语是一种凝结的语言，因为它具有复杂的单词形成过程。因此，该语言的翻译模型需要一种甚至低于单词级别的机制，称为子字级别。自词汇量爆炸以来，这种复合过程导致了一个罕见的单词问题。我们提出了一种解决神经机器翻译（NMT）系统的唯一单词问题的策略，该系统将印度尼西亚语用作一对语言。我们的方法使用基于规则的方法将单词转换为其根部并伴随词缀以保留其含义和上下文。使用基于规则的算法具有更多优势：它不需要语料库数据，而仅应用标准的印尼规则。我们的实验证实了这种方法是实用的。它将词汇的数量大大减少到57％，在英语到印度尼西亚翻译上，此策略在不使用此技术的类似NMT系统上提供了多达5个BLEU点的改进。

translated by 谷歌翻译

Twitter包含来自现实世界中的大量语言数据。我们检查了Twitter的低资源语言（例如本地印尼语）的用户生成的内容。为了使NLP在印尼语中工作，它必须考虑本地方言，地理环境和区域文化影响印尼语言。本文确定了我们在构建本地印尼NLP数据集时面临的问题。此外，我们正在开发一个用于创建，收集和分类NLP本地印尼数据集的框架。使用Twitter的地理位置工具自动注释。

translated by 谷歌翻译