智能论文笔记

AutoEncoder技术在减少秩序建模中发现越来越常见的用途作为创建潜在空间的手段。这种缩小的订单表示为与时间序列预测模型集成时的非线性动力系统提供了模块化数据驱动建模方法。在这封信中，我们提出了一个非线性适当的正交分解（POD）框架，它是一个端到端的Galerkin的模型，组合AutoEncoders，用于动态的长短期内存网络。通过消除由于Galerkin模型的截断导致的投影误差，所提出的非流体方法的关键推动器是在POD系数的全级扩展和动态发展的潜空间之间的非线性映射的运动结构。我们测试我们的模型减少对流主导系统的框架，这通常是针对减少订单模型的具有挑战性。我们的方法不仅提高了准确性，而且显着降低了培训和测试的计算成本。

translated by 谷歌翻译

Distilling the Knowledge of Romanian BERTs Using Multiple Teachers

Andrei-Marius Avram , Darius Catrina , Dumitru-Clementin Cercel , Mihai Dascălu , Traian Rebedea , Vasile Păiş , Dan Tufiş

分类：自然语言处理 | 机器学习

2021-12-23

由于从大规模预先训练的语言模型的转移学习在自然语言处理中普遍存在，在计算受限环境中运行这些模型仍然是一个具有挑战性的问题。已经提出了包括知识蒸馏，网络量化或网络修剪的几种解决方案;然而，这些方法主要关注英语，从而在考虑低资源语言时扩大差距。在这项工作中，我们为罗马尼亚语推出了三种轻型和快速版本的罗马尼亚语言：Distil-Bert-Base-Ro，Distil-Robert-Base和DistilMulti-Bert-Bas-Ro。前两种模型因单独蒸馏在文献中提供的两个基础版本的罗马尼亚伯爵的知识，而最后一个是通过蒸馏它们的集合来获得的。为了我们的知识，这是第一次尝试创建公开可用的罗马尼亚蒸馏BERT模型，这是在五个任务上进行彻底评估的：语音标记，名为实体识别，情感分析，语义文本相似性和方言识别。这些基准测试的实验结果证明，我们的三种蒸馏模型在与老师的准确性方面保持最大的表现，而GPU的两倍于GPU和〜35 \％较小。此外，我们进一步测试了我们的学生和他们的老师之间的相似性，通过测量其标签和概率忠诚度以及回归忠诚度 - 在这项工作中引入的新指标。

translated by 谷歌翻译