化学反应预测,涉及正向合成和逆合合成预测,是有机合成中的一个基本问题。流行的计算范式将综合预测作为序列到序列翻译问题,其中采用典型的微笑来分子表示。然而,通用微笑忽略了化学反应的特征,其中分子图拓扑在很大程度上从反应物到产物不变,如果直接施加了笑容,则会导致微笑的次优性能。在本文中,我们提出了与根对准的微笑(R-Smiles),该微笑指定了产品和反应物微笑之间的紧密比对以进行更有效的合成预测。由于严格的一对一映射和降低的编辑距离,计算模型很大程度上免于学习复杂的语法,并致力于学习反应的化学知识。我们将提出的R-Smiles与各种最新基准进行比较,并表明它明显优于所有基准,这表明了所提出的方法的优越性。
translated by 谷歌翻译
最近建议的MaskFormer \ Cite {MaskFormer}对语义分割的任务提供了刷新的透视图:它从流行的像素级分类范例转移到蒙版级分类方法。实质上,它生成对应于类别段的配对概率和掩码,并在推理的分割映射期间结合它们。因此,分割质量依赖于查询如何捕获类别的语义信息及其空间位置。在我们的研究中,我们发现单尺度特征顶部的每个掩模分类解码器不足以提取可靠的概率或掩模。对于挖掘功能金字塔的丰富语义信息,我们提出了一个基于变压器的金字塔融合变压器(PFT),用于多尺度特征顶部的每个掩模方法语义分段。为了有效地利用不同分辨率的图像特征而不会产生过多的计算开销,PFT使用多尺度变压器解码器,具有跨尺度间间的关注来交换互补信息。广泛的实验评估和消融展示了我们框架的功效。特别是,与屏蔽Former相比,我们通过Reset-101c实现了3.2 miou改进了Reset-101c。此外,在ADE20K验证集上,我们的Swin-B骨架的结果与单尺度和多尺寸推断的屏蔽骨架中的较大的Swin-L骨架相匹配,分别实现54.1 miou和55.3 miou。使用Swin-L骨干,我们在ADE20K验证集中实现了56.0 Miou单尺度结果和57.2多尺度结果,从而获得数据集的最先进的性能。
translated by 谷歌翻译
图形神经网络(GNNS)是一类强大的机器学习工具,可以模拟节点关系,用于制定节点或链接的预测。GNN开发人员依靠预测的定量度量来评估GNN,但类似于许多其他神经网络,他们很难了解GNN是否真正学习如预期的图形的特征。我们提出了一种对应于其节点嵌入(AKA潜像)的输入图的方法,稍后用于预测的GNN的公共组件。我们摘要数据和任务,并开发一个名为corgie的交互式多视图界面,以实例化抽象。作为Corgie的关键功能,我们提出了K-Hop图布局,以显示啤酒花和它们的聚类结构中的拓扑邻居。为了评估Corgie的功能和可用性,我们展示了如何在两种使用情况下使用Corgie,并使用五个GNN专家进行案例研究。
translated by 谷歌翻译
漫画是一种人类面孔的艺术风格,吸引了娱乐业的相当大的关注。到目前为止,存在少数3D漫画生成方法,所有这些都需要一些漫画信息(例如,漫画素描或2D漫画)作为输入。然而,这种输入难以由非专业用户提供。在本文中,我们提出了一个端到端的深度神经网络模型,可直接从正常的2D脸照片产生高质量的3D漫画。我们系统最具挑战性的问题是面部照片的源域(以正常的2D面为特征)与3D漫画的目标域有很大差异(以3D夸大的面形状和纹理为特征)。为了解决这一挑战,我们:(1)建立一个大型数据集5,343个3D漫画网格,并使用它来建立3D漫画形状空间中的PCA模型; (2)从输入面照片重建正常的全3D头,并在3D漫画形状空间中使用其PCA表示来建立输入照片和3D漫画形状之间的对应关系; (3)提出了一种基于以前对讽刺的心理研究的新颖性状损失和新颖的漫画损失。实验包括新型两级用户学习,表明我们的系统可以直接从正常面部照片产生高质量的3D漫画。
translated by 谷歌翻译
Video captioning aims to generate natural language sentences that describe the given video accurately. Existing methods obtain favorable generation by exploring richer visual representations in encode phase or improving the decoding ability. However, the long-tailed problem hinders these attempts at low-frequency tokens, which rarely occur but carry critical semantics, playing a vital role in the detailed generation. In this paper, we introduce a novel Refined Semantic enhancement method towards Frequency Diffusion (RSFD), a captioning model that constantly perceives the linguistic representation of the infrequent tokens. Concretely, a Frequency-Aware Diffusion (FAD) module is proposed to comprehend the semantics of low-frequency tokens to break through generation limitations. In this way, the caption is refined by promoting the absorption of tokens with insufficient occurrence. Based on FAD, we design a Divergent Semantic Supervisor (DSS) module to compensate for the information loss of high-frequency tokens brought by the diffusion process, where the semantics of low-frequency tokens is further emphasized to alleviate the long-tailed problem. Extensive experiments indicate that RSFD outperforms the state-of-the-art methods on two benchmark datasets, i.e., MSR-VTT and MSVD, demonstrate that the enhancement of low-frequency tokens semantics can obtain a competitive generation effect. Code is available at https://github.com/lzp870/RSFD.
translated by 谷歌翻译
集中式培训(CT)是许多受欢迎的多代理增强学习(MARL)方法的基础,因为它允许代理商快速学习高性能的政策。但是,CT依靠代理人从对特定州对其他代理商的行为的一次性观察中学习。由于MARL代理商在培训期间探索和更新其政策,因此这些观察结果通常会为其他代理商的行为和预期的给定行动回报提供不良的预测。因此,CT方法患有较高的差异和容易出错的估计,从而损害了学习。除非施加了强大的分解限制,否则CT方法还遭受了复杂性爆炸性增长(例如,QMIX的单调奖励函数)。我们通过一个新的半居中的MAL框架来应对这些挑战,该框架执行政策安装的培训和分散的执行。我们的方法是嵌入式增强学习算法(PERLA),是参与者批评的MARL算法的增强工具,它利用了一种新型参数共享协议和策略嵌入方法来维持对其他代理商的行为的估计。我们的理论证明,佩拉大大降低了价值估计的差异。与各种CT方法不同,Perla无缝地采用MARL算法,它可以轻松地与代理数量缩放,而无需限制性分解假设。我们展示了Perla在基准环境中的出色经验表现和有效的缩放,包括Starcraft Micromagement II和Multi-Agent Mujoco
translated by 谷歌翻译
我们利用了肢体机器人互动和预言的互补优势,实现了点球导航。腿系统能够穿过比轮式机器人更复杂的地形,而是为了充分利用这种能力,我们需要导航系统中的高级路径规划仪,了解在不同地形上的低级运动策略的步行能力。我们通过使用壁虎搜寻反馈来实现这一目标来估计行走政策的安全操作限制,并感知意外障碍和地形性质,如可能被视力错过的地面的平滑度或柔软度。导航系统使用车载相机来生成占用映射和相应的成本图以实现目标。然后,FMM(快速行进方法)规划器然后生成目标路径。速度命令生成器将此作为输入,以从安全顾问,意外障碍和地形速度限制生成作为输入附加约束的机车策略的所需速度。与轮式机器人(Logobot)基线(Logobot)基线和其他具有不相交的基调规划和低级控制的基线显示出卓越的性能。我们还在具有板载传感器和计算的Quadruped Robot上显示了我们系统的真实部署。 https://navigation-locomotion.github.io/camera-ready的视频
translated by 谷歌翻译
为了实现解除不诚格的图像操纵,以前的作品依赖于手动注释。同时,可用的操作仅限于预定义的集合培训的模型。在本文中,我们提出了一种新颖的框架,即预测,预防和评估(PPE),用于解散的文本驱动的图像操纵,其不需要手动注释,因此不限于固定操作。我们的方法通过深入利用大规模预先训练的视觉语言模型剪辑的力量来接近目标。具体地,我们首先预测给定文本命令可能纠缠的属性。然后,基于预测的属性,我们引入了纠缠损失以防止培训期间的缠结。最后,我们提出了一个新的评估度量来评估解除戒开的图像操纵。我们验证了我们对挑战面部编辑任务的方法的有效性。广泛的实验表明,所提出的PPE框架比最新的特写率基线实现了更好的定量和定性结果。
translated by 谷歌翻译
深度神经网络的计算能力的巨大要求是他们真实世界应用的主要障碍。许多最近的应用特定集成电路(ASIC)芯片特征专用于神经网络加速的硬件支持。然而,由于ASICS多年来发展,他们不可避免地通过神经结构研究的最新发展出现。例如,变换器网络在许多流行芯片上没有本机支持,因此难以部署。在本文中,我们提出了一系列神经网络的拱门,这些网络唯一由距离Asics的大多数架构有效支持的运营商。当产生弓形网时,通过无标记的块块模型蒸馏以逐步的方式消除较少的普通网络结构,如层归一化和嵌入层,同时同时执行Sub-八比特量化以最大化性能。机器翻译和图像分类任务的经验结果确认我们可以将最新的发发的神经架构转换为快速运行和准确的拱网,准备部署多个大规模生产的ASIC芯片。代码将在https://github.com/megvii-research/arch-et栏中提供。
translated by 谷歌翻译
为鼓励AI代理商进行有意义的视觉对话(VD),削减了潜力的使用。在钢筋学习中,代表各国至关重要,并根据国家的行动过渡分配奖励。但是,先前的Visual Dialogue Works中的状态表示仅使用文本信息,并且其转换是隐式的。在本文中,我们建议明确关于各国(ECS)代表每轮视觉内容以及在整个视觉对话中关注的内容。 ECS由多模式信息建模,并明确表示。基于ECS,我们制定了两种直观和可意识的奖励,以鼓励视觉对话代理商对多元化和信息的视觉信息相反。根据多种自动指标,人类研究和定性分析,对VideDial V1.0数据集进行了实验结果,使我们的方法能够产生更高的视觉对话代理,以产生更高的视觉对话代理,与以前的方法相比,与以前的方法相比,可以产生更高的视觉相干,更重复和更具视觉信息的对话。
translated by 谷歌翻译