语义本地化(SELO)是指使用语义信息(例如文本)在大规模遥感(RS)图像中获得最相关位置的任务。作为基于跨模式检索的新兴任务,Selo仅使用字幕级注释来实现语义级检索,这表明了其在统一下游任务方面的巨大潜力。尽管Selo已连续执行,但目前没有系统地探索并分析了这一紧急方向。在本文中,我们彻底研究了这一领域,并根据指标和测试数据提供了完整的基准,以推进SELO任务。首先,基于此任务的特征,我们提出了多个判别评估指标来量化SELO任务的性能。设计的显着面积比例,注意力转移距离和离散的注意距离可用于评估从像素级别和区域级别中产生的SELO图。接下来,为了为SELO任务提供标准评估数据,我们为多样化的,多语义的,多目标语义定位测试集(AIR-SLT)贡献。 AIR-SLT由22个大型RS图像和59个具有不同语义的测试用例组成,旨在为检索模型提供全面的评估。最后,我们详细分析了RS跨模式检索模型的SELO性能,探索不同变量对此任务的影响,并为SELO任务提供了完整的基准测试。我们还建立了一个新的范式来引用RS表达理解,并通过将其与检测和道路提取等任务相结合,证明了Selo在语义中的巨大优势。拟议的评估指标,语义本地化测试集和相应的脚本已在github.com/xiaoyuan1996/semanticlocalizationmetrics上访问。
translated by 谷歌翻译
故事结束一代旨在为给定的故事背景产生合理的结局。该领域的大多数现有研究都集中在产生连贯或多元化的故事结尾,而他们忽略了不同的角色可能会导致给定故事的不同结局。在本文中,我们提出了一个面向角色的故事结束生成器(Coseg),以自定义故事中每个角色的结局。具体来说,我们首先提出一个角色建模模块,以从故事背景中提取的描述性经历中学习角色的个性。然后,受到化学反应中离子交换机制的启发,我们设计了一个新颖的矢量断裂/形成模块,以通过类似信息交换程序来学习每个字符和相应上下文之间的固有相互作用。最后,我们利用注意力机制学习有效的特定角色相互作用,并将每种相互作用馈送到解码器中,以生成角色 - 与角色的结尾。广泛的实验结果和案例研究表明,与最先进的方法相比,Coseg在生成的结局质量方面取得了重大改善,并且有效地自定义了不同字符的结局。
translated by 谷歌翻译
基于语义空间中密集表示的检索模型已成为第一阶段检索的必不可少的分支。这些检索员受益于代表学习朝着压缩全球序列级嵌入的进步。但是,它们很容易忽略本地的显着短语和实体在文本中提到的,这些短语通常在第一阶段的检索中扮演枢轴角色。为了减轻这种弱点,我们提议使一个密集的检索器对齐一个表现出色的词典意识代表模型。对齐方式是通过弱化的知识蒸馏来实现的,以通过两个方面来启发猎犬 - 1)词汇扬声的对比目标,以挑战密集编码器和2)一个配对的等级正规化,以使密集的模型的行为倾向于其他人的行为。我们在三个公共基准上评估了我们的模型,这表明,凭借可比的词典觉得回收犬作为老师,我们提议的密集人可以带来一致而重大的改进,甚至超过教师。此外,我们发现我们对密集猎犬的改进是与标准排名蒸馏的补充,这可以进一步提高最先进的性能。
translated by 谷歌翻译
大多数异常检测算法主要集中于建模正常样品的分布并将异常视为异常值。但是,由于缺乏对异常的知识,该模型的判别性能可能不足。因此,应尽可能利用异常。但是,在训练过程中利用一些已知的异常情况可能会导致另一个问题,即模型可能会受到已知异常的偏见,并且未能概括地看不见异常。在本文中,我们旨在利用一些现有的异常情况,具有精心设计的明确指导的半孔学习策略,这可以增强可区分性,同时减轻由于已知异常不足引起的偏见问题。我们的模型基于两个核心设计:首先,找到一个明确的分离边界作为进一步的对比度学习的指导。具体而言,我们采用归一化流程来学习正常特征分布,然后找到一个明确的分离边界,靠近分布边缘。所获得的显式和紧凑的分离边界仅依赖于正常特征分布,因此可以减轻少数已知异常引起的偏置问题。其次,在显式分离边界的指导下学习更多的判别特征。开发了边界引导的半孔损耗,以将正常特征融合在一起,同时将异常特征推开以外的分离边界以外的边界区域。通过这种方式,我们的模型可以形成更明确,更歧视性的决策边界,以为已知和看不见的异常取得更好的结果,同时还保持高训练效率。对广泛使用的MVTECAD基准进行的广泛实验表明,该方法可实现新的最新结果,其性能为98.8%的图像级AUROC和99.4%的像素级AUROC。
translated by 谷歌翻译
根据历史运动序列预测未来的运动是计算机视觉中的一个基本问题,并且在自主驾驶和机器人技术中具有广泛的应用。最近的一些作品表明,图形卷积网络(GCN)有助于对不同关节之间的关系进行建模。但是,考虑到人类运动数据中的变体和各种作用类型,由于解耦的建模策略,很难描绘时空关系的交叉依赖性,这也可能加剧了不足的概括问题。因此,我们提出时空门控速度ADJACENCY GCN(GAGCN)学习对各种作用类型的复杂时空依赖性。具体而言,我们采用门控网络来通过混合候选时空邻接矩阵获得的可训练的自适应邻接矩阵来增强GCN的概括。此外,GAGCN通过平衡时空建模的重量并融合了脱钩时空特征来解决空间和时间的交叉依赖性。对人类360万,积聚和3DPW的广泛实验表明,GAGCN在短期和长期预测中都能达到最先进的表现。
translated by 谷歌翻译
在这项工作中,我们提出了一个单视手网格重建框架,可以同时实现高重建精度,快速推断速度和时间相干性。具体而言,对于2D编码,我们提出了轻量级但有效的堆叠结构。关于3D解码,我们提供有效的图形操作员,即深度可分离的螺旋卷积。此外,我们提出了一种用于桥接2D和3D表示之间的间隙的新颖特征提升模块。该模块以基于地图的位置回归(MapReg)块开头,以集成HeatMap编码和位置回归范例的优点,以提高2D精度和时间相干性。此外,MapReg之后是姿势池和姿势到顶点提升方法,它将2D姿势编码转换为3D顶点的语义特征。总体而言,我们的手部重建框架称为MobRecon,包括经济实惠的计算成本和微型模型大小,在Apple A14 CPU上达到83FP的高推理速度。广泛的对流行数据集如弗里安,RHD和HO3DV2的实验表明,我们的Mobrecon在重建准确性和时间一致性方面取得了卓越的性能。我们的代码在https://github.com/seanchenxy/handmesh公开提供。
translated by 谷歌翻译
开发深度神经网络以生成3D场景是神经综合的基本问题,其立即应用于架构CAD,计算机图形,以及生成虚拟机器人训练环境。这项任务是具有挑战性的,因为3D场景呈现不同的模式,从连续的模式等等,例如对象尺寸和成对对之间的相对姿势,以离散模式,例如具有对称关系的对象的发生和共发生。本文介绍了一种新型神经场景综合方法,可以捕获3D场景的不同特征模式。我们的方法结合了神经网络和传统场景合成方法的强度。我们使用从训练数据中学到的参数上的分布,这提供了对象属性和相对属性的不确定性,以规范前馈神经模型的输出。此外,我们的方法不仅仅是预测场景布局,而不是预测场景布局。该方法允许我们利用预测属性之间的底层一致性约束来修剪不可行的预测。实验结果表明,我们的方法显着优于现有方法。生成的3D场景在保留连续和离散特征模式的同时忠实地插入训练数据。
translated by 谷歌翻译
Long document retrieval aims to fetch query-relevant documents from a large-scale collection, where knowledge distillation has become de facto to improve a retriever by mimicking a heterogeneous yet powerful cross-encoder. However, in contrast to passages or sentences, retrieval on long documents suffers from the scope hypothesis that a long document may cover multiple topics. This maximizes their structure heterogeneity and poses a granular-mismatch issue, leading to an inferior distillation efficacy. In this work, we propose a new learning framework, fine-grained distillation (FGD), for long-document retrievers. While preserving the conventional dense retrieval paradigm, it first produces global-consistent representations crossing different fine granularity and then applies multi-granular aligned distillation merely during training. In experiments, we evaluate our framework on two long-document retrieval benchmarks, which show state-of-the-art performance.
translated by 谷歌翻译
To improve the performance of the dual-encoder retriever, one effective approach is knowledge distillation from the cross-encoder ranker. Existing works construct the candidate passages following the supervised learning setting where a query is paired with a positive passage and a batch of negatives. However, through empirical observation, we find that even the hard negatives from advanced methods are still too trivial for the teacher to distinguish, preventing the teacher from transferring abundant dark knowledge to the student through its soft label. To alleviate this issue, we propose ADAM, a knowledge distillation framework that can better transfer the dark knowledge held in the teacher with Adaptive Dark exAMples. Different from previous works that only rely on one positive and hard negatives as candidate passages, we create dark examples that all have moderate relevance to the query through mixing-up and masking in discrete space. Furthermore, as the quality of knowledge held in different training instances varies as measured by the teacher's confidence score, we propose a self-paced distillation strategy that adaptively concentrates on a subset of high-quality instances to conduct our dark-example-based knowledge distillation to help the student learn better. We conduct experiments on two widely-used benchmarks and verify the effectiveness of our method.
translated by 谷歌翻译
Responding with multi-modal content has been recognized as an essential capability for an intelligent conversational agent. In this paper, we introduce the MMDialog dataset to better facilitate multi-modal conversation. MMDialog is composed of a curated set of 1.08 million real-world dialogues with 1.53 million unique images across 4,184 topics. MMDialog has two main and unique advantages. First, it is the largest multi-modal conversation dataset by the number of dialogues by 8x. Second, it contains massive topics to generalize the open-domain. To build engaging dialogue system with this dataset, we propose and normalize two response producing tasks based on retrieval and generative scenarios. In addition, we build two baselines for above tasks with state-of-the-art techniques and report their experimental performance. We also propose a novel evaluation metric MM-Relevance to measure the multi-modal responses. Our dataset and scripts are available in https://github.com/victorsungo/MMDialog.
translated by 谷歌翻译