本文提出了一种用于端到端现场文本识别的新颖培训方法。端到端的场景文本识别提供高识别精度,尤其是在使用基于变压器的编码器 - 解码器模型时。要培训高度准确的端到端模型,我们需要为目标语言准备一个大型图像到文本配对数据集。但是,很难收集这些数据,特别是对于资源差的语言。为了克服这种困难,我们所提出的方法利用富裕的大型数据集,以资源丰富的语言,如英语,培训资源差的编码器解码器模型。我们的主要思想是建立一个模型,其中编码器反映了多种语言的知识,而解码器专门从事资源差的语言。为此,所提出的方法通过使用组合资源贫乏语言数据集和资源丰富的语言数据集的多语言数据集来预先培训编码器,以学习用于场景文本识别的语言不变知识。所提出的方法还通过使用资源贫乏语言的数据集预先列举解码器,使解码器更适合资源较差的语言。使用小型公共数据集进行日本现场文本识别的实验证明了该方法的有效性。
translated by 谷歌翻译
本文提出了一种用于对话序列标记的新型知识蒸馏方法。对话序列标签是监督的学习任务,估计目标对话文档中每个话语的标签,并且对于许多诸如对话法估计的许多应用是有用的。准确的标签通常通过分层结构化的大型模型来实现,这些大型模型组成的话语级和对话级网络,分别捕获话语内和话语之间的上下文。但是,由于其型号大小,因此无法在资源受限设备上部署此类模型。为了克服这种困难,我们专注于通过蒸馏了大型和高性能教师模型的知识来列举一个小型模型的知识蒸馏。我们的主要思想是蒸馏知识,同时保持教师模型捕获的复杂环境。为此,所提出的方法,等级知识蒸馏,通过蒸馏来列举小型模型,而不是通过培训模型在教师模型中培训的话语水平和对话级环境的知识模拟教师模型在每个级别的输出。对话法案估算和呼叫场景分割的实验证明了该方法的有效性。
translated by 谷歌翻译
Hopfield networks and Boltzmann machines (BMs) are fundamental energy-based neural network models. Recent studies on modern Hopfield networks have broaden the class of energy functions and led to a unified perspective on general Hopfield networks including an attention module. In this letter, we consider the BM counterparts of modern Hopfield networks using the associated energy functions, and study their salient properties from a trainability perspective. In particular, the energy function corresponding to the attention module naturally introduces a novel BM, which we refer to as attentional BM (AttnBM). We verify that AttnBM has a tractable likelihood function and gradient for a special case and is easy to train. Moreover, we reveal the hidden connections between AttnBM and some single-layer models, namely the Gaussian--Bernoulli restricted BM and denoising autoencoder with softmax units. We also investigate BMs introduced by other energy functions, and in particular, observe that the energy function of dense associative memory models gives BMs belonging to Exponential Family Harmoniums.
translated by 谷歌翻译
In this paper, we propose a novel architecture called Composition Attention Grammars (CAGs) that recursively compose subtrees into a single vector representation with a composition function, and selectively attend to previous structural information with a self-attention mechanism. We investigate whether these components -- the composition function and the self-attention mechanism -- can both induce human-like syntactic generalization. Specifically, we train language models (LMs) with and without these two components with the model sizes carefully controlled, and evaluate their syntactic generalization performance against six test circuits on the SyntaxGym benchmark. The results demonstrated that the composition function and the self-attention mechanism both play an important role to make LMs more human-like, and closer inspection of linguistic phenomenon implied that the composition function allowed syntactic features, but not semantic features, to percolate into subtree representations.
translated by 谷歌翻译
黑盒优化在许多应用中具有潜力,例如在实验设计中的机器学习和优化中的超参数优化。 ISING机器对二进制优化问题很有用,因为变量可以由Ising机器的单个二进制变量表示。但是,使用ISING机器的常规方法无法处理具有非二进制值的黑框优化问题。为了克服这一限制,我们通过与三种不同的整数编码方法合作,通过使用ISING/退火计算机和分解计算机来提出一种用于整数变量的黑盒优化问题的方法。使用不同的编码方法,使用一个简单的问题来计算最稳定状态下的氢分子能量,以不同的编码方法进行数值评估。提出的方法可以使用任何整数编码方法来计算能量。但是,单次编码对于小尺寸的问题很有用。
translated by 谷歌翻译
我们介绍RealityTalk,该系统通过语音驱动的互动虚拟元素来增强实时实时演示。增强演示文稿利用嵌入式视觉效果和动画来吸引和表现力。但是,现有的实时演示工具通常缺乏互动性和即兴创作,同时在视频编辑工具中产生这种效果需要大量的时间和专业知识。RealityTalk使用户能够通过实时语音驱动的交互创建实时增强演示文稿。用户可以通过实时语音和支持方式进行交互提示,移动和操纵图形元素。根据我们对177个现有视频编辑的增强演示文稿的分析,我们提出了一套新颖的互动技术,然后将它们纳入真人秀。我们从主持人的角度评估我们的工具,以证明系统的有效性。
translated by 谷歌翻译
本文介绍了素描的现实,这种方法结合了AR素描和驱动的有形用户界面(TUI),用于双向素描交互。双向草图使虚拟草图和物理对象通过物理驱动和数字计算相互影响。在现有的AR素描中,虚拟世界和物理世界之间的关系只是一个方向 - 虽然物理互动会影响虚拟草图,但虚拟草图对物理对象或环境没有返回效果。相反,双向素描相互作用允许草图和驱动的tuis之间的无缝耦合。在本文中,我们采用桌面大小的小型机器人(Sony Toio)和基于iPad的AR素描工具来演示该概念。在我们的系统中,在iPad上绘制和模拟的虚拟草图(例如,线,墙壁,摆和弹簧)可以移动,动画,碰撞和约束物理Toio机器人,就像虚拟草图和物理对象存在于同一空间中一样通过AR和机器人运动之间的无缝耦合。本文贡献了一组新型的互动和双向AR素描的设计空间。我们展示了一系列潜在的应用,例如有形的物理教育,可探索的机制,儿童有形游戏以及通过素描的原位机器人编程。
translated by 谷歌翻译
本文介绍了一种生成高度选择性编码的方法,这些编码可以在物理模块上磁性地“编程”,以使其能够以所选的配置自组装。我们基于Hadamard矩阵生成这些编码,并展示如何设计模块的面孔,以对其预期的伴侣具有最大吸引力,同时对其他面孔保持最大不可知论。我们得出这些界限的保证,并通过实验验证它们的吸引力和不可知论。使用其面部已被软磁性材料覆盖的立方模块,我们显示了如何使用带有平面面的廉价的被动模块来选择性地自组装成目标形状,而无需几何指南。我们表明,这些模块可以使用基于CNC的磁性绘图仪轻松地重新编程,以用于新的目标形状,并证明水箱中8个立方体的自组装。
translated by 谷歌翻译
本文介绍了基于立方体的可重构机器人,该机器人利用基于电磁体的驱动框架通过枢轴在三个维度重新配置。尽管已经探索了各种可自我配置机器人的驱动机制,但它们通常会遭受成本,复杂性,组装和尺寸要求,以阻止这种机器人的生产规模。为了应对这一挑战,我们使用基于嵌入每个立方体边缘的电磁体的驱动机制来互换创建相同或相反极化的电磁体对,分别产生排斥或吸引力。通过利用铰链形成的吸引力,并以驱动旋转操作的排斥力,我们可以通过电磁磁性磁极磁极的旋转旋转来重新配置机器人,并使其构成模块(称为电动员)。为了证明这一点,我们开发了完全不受限制的三维自我恢复的机器人,并在抛物线能飞行中使用枢轴和横向动作展示了2D和3D自我调查的方法。本文介绍了我们机器人的硬件设计,其旋转框架,我们的重新配置计划软件以及对系统的动态和电气特性的评估,以告知可扩展的自我可控机器人的设计。
translated by 谷歌翻译
本文重新访问了符号回归的数据集和评估标准,该任务是使用数学方程式表达给定数据的任务,特别关注其科学发现的潜力。专注于基于Feynman物理学讲座的现有数据集中使用的一组公式,我们重新创建了120个数据集,以讨论科学发现(SRSD)符号回归的性能。对于120个SRSD数据集中的每个数据集,我们仔细查看公式及其变量的属性,以设计合理逼真的值的值范围,以便可以使用我们的新SRSD数据集来评估SRSD的潜力,例如SR方法是否是SR方法con(re)从此类数据集中发现物理定律。作为评估度量,我们还建议在预测方程和地面方程树之间使用归一化的编辑距离。虽然现有指标是目标值和SR模型之间的二进制或误差,但标准化的编辑距离评估了地面真相和预测方程树之间的相似性。我们已经使用SRBENCH中的五种最先进的SR方法在新的SRSD数据集上进行了实验,并基于最新的变压器体系结构进行了简单的基线。结果表明,我们提供了更现实的性能评估,并为科学发现开辟了新的基于机器学习的方法。我们的数据集和代码存储库公开可用。
translated by 谷歌翻译