A major goal of multimodal research is to improve machine understanding of images and text. Tasks include image captioning, text-to-image generation, and vision-language representation learning. So far, research has focused on the relationships between images and text. For example, captioning models attempt to understand the semantics of images which are then transformed into text. An important question is: which annotation reflects best a deep understanding of image content? Similarly, given a text, what is the best image that can present the semantics of the text? In this work, we argue that the best text or caption for a given image is the text which would generate the image which is the most similar to that image. Likewise, the best image for a given text is the image that results in the caption which is best aligned with the original text. To this end, we propose a unified framework that includes both a text-to-image generative model and an image-to-text generative model. Extensive experiments validate our approach.
translated by 谷歌翻译
最近的基于变压器的离线视频实例细分(VIS)方法取得了令人鼓舞的结果,并明显胜过在线方法。但是,它们对整个视频的依赖以及由全时空的注意力引起的巨大计算复杂性限制了它们在现实生活中的应用中,例如处理冗长的视频。在本文中,我们提出了一个基于单级变压器的高效在线VIS框架,名为InstanceFormer,该框架特别适合长期挑战性的视频。我们提出了三个新的组件来建模短期和长期依赖性和时间连贯性。首先,我们传播了对短期更改建模的先前实例的表示形式,位置和语义信息。其次,我们在解码器中提出了一种新颖的记忆交叉注意,该记忆使网络可以在某个时间窗口内研究早期实例。最后,我们采用时间对比度损失,在所有框架的实例表示中施加连贯性。记忆注意力和时间连贯性特别有益于远程依赖建模,包括诸如遮挡等挑战的情况。所提出的实例形式优于以前的在线基准方法在多个数据集上的较大边距。最重要的是,InstanceFormer超过了挑战和长数据集(例如YouTube-Vis-2021和OVIS)的离线方法。代码可从https://github.com/rajatkoner08/instanceformer获得。
translated by 谷歌翻译
关于时间知识图(TKGQA)的问题回答最近发现兴趣越来越大。 TKGQA需要时间推理技术来从时间知识库中提取相关信息。唯一现有的TKGQA数据集,即cronquestions,由基于固定时间段内的事实组成,其中跨越同一时期的时间知识图(TKG)可以完全使用用于答案推断,允许使用TKGQA模型。即将根据过去事实回答问题的未来知识。但是,在现实世界的情况下,鉴于到目前为止的知识也很常见,我们希望TKGQA系统回答询问未来的问题。随着人类不断寻求未来计划,建立用于回答此类预测问题的TKGQA系统很重要。然而,这在先前的研究中仍未得到探索。在本文中,我们提出了一个新的任务:关于时间知识图的预测问题。我们还为此任务提出了一个大规模的TKGQA基准数据集,即预测。它包括三种类型的问题,即实体预测,不是和事实推理问题。对于我们数据集中的每个预测问题,QA模型只能在给定问题中注释的时间戳以进行答案推理之前访问TKG信息。我们发现,最先进的TKGQA方法在预测问题上的表现较差,并且他们无法回答不是问题和事实推理问题。为此,我们提出了一种TKGQA模型预测,该模型采用TKG预测模块进行未来推断,以回答所有三种类型的问题。实验结果表明,预测到实体预测问题的最新方法优于最近的TKGQA方法,并且在回答其他两种类型的问题方面也显示出很大的有效性。
translated by 谷歌翻译
深度神经网络的图像分类容易受到对抗性扰动的影响。图像分类可以通过在输入图像中添加人造小且不可察觉的扰动来轻松愚弄。作为最有效的防御策略之一,提出了对抗性训练,以解决分类模型的脆弱性,其中创建了对抗性示例并在培训期间注入培训数据中。在过去的几年中,对分类模型的攻击和防御进行了深入研究。语义细分作为分类的扩展,最近也受到了极大的关注。最近的工作表明,需要大量的攻击迭代来创建有效的对抗性示例来欺骗分割模型。该观察结果既可以使鲁棒性评估和对分割模型的对抗性培训具有挑战性。在这项工作中,我们提出了一种称为SEGPGD的有效有效的分割攻击方法。此外,我们提供了收敛分析,以表明在相同数量的攻击迭代下,提出的SEGPGD可以创建比PGD更有效的对抗示例。此外,我们建议将SEGPGD应用于分割对抗训练的基础攻击方法。由于SEGPGD可以创建更有效的对抗性示例,因此使用SEGPGD的对抗训练可以提高分割模型的鲁棒性。我们的建议还通过对流行分割模型体系结构和标准分段数据集进行了验证。
translated by 谷歌翻译
人脑可以被认为是一种图形结构,包括数以千的通过突触连接的生物神经元。如果某些神经元损坏,它具有显着的能力,可以自动重新汇总信息流过备用路径。此外,大脑能够保留信息并将其应用于类似但完全看不见的情况。在本文中,我们从大脑的这些属性中汲取灵感,以开发一个计算框架,以在广义图中找到源节点和目标节点之间的最佳低成本路径。我们证明我们的框架能够在测试时处理看不见的图。此外,当在推理期间任意添加或删除节点时,可以找到替代的最佳路径,同时保持固定的预测时间。代码可在此处找到:https://github.com/hangligit/pathfinding
translated by 谷歌翻译
联合学习(FL)是一个分散的学习范式,其中多个客户在不集中其本地数据的情况下进行培训深度学习模型,因此保留数据隐私。现实世界中的应用程序通常涉及在不同客户端的数据集上进行分发转换,这损害了客户从各自的数据分布中看不见样本的概括能力。在这项工作中,我们解决了最近提出的功能转移问题,其中客户具有不同的功能分布,而标签分布相同。我们建议联邦代表性扩大(FRAUG)来解决这个实用且具有挑战性的问题。我们的方法在嵌入空间中生成合成客户端特定的样本,以增加通常小客户端数据集。为此,我们训练一个共享的生成模型,以融合客户从其不同功能分布中学习的知识。该发电机合成了客户端 - 不合时式嵌入,然后通过表示转换网络(RTNET)将其局部转换为特定于客户端的嵌入。通过将知识转移到客户端,生成的嵌入式作为客户模型的正常化程序,并减少对本地原始数据集的过度拟合,从而改善了概括。我们对公共基准和现实医学数据集的经验评估证明了该方法的有效性,该方法在包括Partialfed和FedBN在内的非IID特征的当前最新FL方法大大优于最新的FL方法。
translated by 谷歌翻译
传统的静态知识图形在关系数据中的模型实体作为节点,由特定关系类型的边缘连接。然而,信息和知识不断发展,并且时间动态出现,预计会影响未来的情况。在时间知识图中,通过用时间戳或时间范围配备每个边缘,将时间信息集成到图表中。已经引入了基于嵌入的方法,以便在时间知识图上引入链接预测,但它们主要缺乏可解释性和可理解的推理链。特别是,它们通常不设计用于处理涉及未来时间戳的链路预测 - 事件预测。我们解决了对时间知识图表链接预测的任务,并介绍了一种基于通过时间随机散步提取的时间逻辑规则的可解释的框架。我们在三个基准数据集中比较Tlogic与最先进的基线,并显示出更好的整体性能,而我们的方法还提供了保留时间一致性的解释。此外,与基于最先进的嵌入的方法相比,TLOGIC在具有普通词汇表的相关数据集转移到相关的数据集中,TLOGIC在归纳规则中运行良好。
translated by 谷歌翻译
虽然知识图表包含各种实体的丰富语义知识和它们之间的关系信息,但时间知识图(TKG)进一步表明实体随时间的相互作用。为了研究如何更好地模范TKG,自动时间知识图完成(TKGC)已经获得了很大的兴趣。最近的TKGC方法旨在整合先进的深度学习技术,例如注意机制和变压器,提高模型性能。然而,我们发现与采用各种复杂模块相比,更有利的是更好地利用沿时间轴的全部时间信息。在本文中,我们为TKGC提出了一个简单但强大的图形编码器Targcn。 targcn是参数效率,它广泛利用了整个时间上下文的信息。我们在三个基准数据集执行实验。与最先进的模型相比,我们的模型可以在GDELT数据集中实现42%以上的相对改善。同时,它优于ICEWS05-15数据集的最强大的基线,参数减少约为18.5%。
translated by 谷歌翻译
基于深度神经网络的图像分类可以被小和准毫不察觉的扰动的对抗例子误导。此外,在一个分类模型上创建的对抗性示例也可以欺骗另一个不同的模型。逆势实例的可转移性最近吸引了日益增长的利益,因为它使黑盒攻击对分类模型可行。作为分类的延伸,语义细分也有很大的关注其对抗的鲁棒性。然而,尚未系统地研究了对抗模型对分段模型的转移性。在这项工作中,我们深入研究了这个话题。首先,我们探讨了对分类和分割模型的对抗实例的过度现象。与对分类模型的观察结果相比,通过对源模型的过度限制的分类模型进行了限制,我们发现分段上的对抗示例并不总是过度装备源模型。即使呈现过度拟合,逆势实例的可转移也是有限的。我们将限制归因于分段模型的架构性状,即多尺度对象识别。然后,我们提出了一种简单有效的方法,称为动态缩放,克服限制。通过我们的方法实现的高可转移性表明,与先前作品中的观察结果相比,对分割模型的对抗示例可以容易地传递到其他分段模型。我们的分析和提案得到了广泛的实验支持。
translated by 谷歌翻译
最近的视觉变压器(VIT)的进步已经证明了其在图像分类中的令人印象深刻的性能,这使其成为卷积神经网络(CNN)的有希望的替代品。与CNN不同,VIT表示作为图像斑块序列的输入图像。 PATCH-WISE输入图像表示提出了以下问题:与CNN相比,当各个输入图像贴片扰乱自然损坏或对抗性扰动时,如何进行VIT vit表现在这项工作中,我们研究了视觉变形金刚的稳健性,以修补扰动。令人惊讶的是,我们发现视觉变压器对自然腐蚀的斑块比CNN更腐蚀,而它们更容易受到对抗性补丁的影响。此外,我们进行广泛的定性和定量实验,以了解修补扰动的鲁棒性。我们透露,Vit对天然腐蚀斑块的更强烈的稳健性以及对抗对抗性斑块的更高脆弱性都是由注意机制引起的。具体而言,注意模型可以通过有效地忽略自然腐蚀斑块来帮助改善视觉变压器的稳健性。然而,当视力变压器被对手攻击时,注意机制可以很容易地愚弄更多地关注对抗扰动的斑块并导致错误。
translated by 谷歌翻译