根据图像回答语义复杂的问题是在视觉问题应答(VQA)任务中的具有挑战性。虽然图像可以通过深度学习来良好代表,但是始终简单地嵌入问题,并且不能很好地表明它的含义。此外,视觉和文本特征具有不同模式的间隙,很难对齐和利用跨模块信息。在本文中,我们专注于这两个问题,并提出了一种匹配关注(GMA)网络的图表。首先,它不仅为图像构建图形,而且在句法和嵌入信息方面构建了该问题的图表。接下来,我们通过双级图形编码器探讨了模特内的关系,然后呈现双边跨模型图匹配注意力以推断图像与问题之间的关系。然后将更新的跨模式特征发送到答案预测模块中以进行最终答案预测。实验表明,我们的网络在GQA数据集和VQA 2.0数据集上达到了最先进的性能。消融研究验证了GMA网络中每个模块的有效性。
translated by 谷歌翻译
Artificial Intelligence (AI) and its applications have sparked extraordinary interest in recent years. This achievement can be ascribed in part to advances in AI subfields including Machine Learning (ML), Computer Vision (CV), and Natural Language Processing (NLP). Deep learning, a sub-field of machine learning that employs artificial neural network concepts, has enabled the most rapid growth in these domains. The integration of vision and language has sparked a lot of attention as a result of this. The tasks have been created in such a way that they properly exemplify the concepts of deep learning. In this review paper, we provide a thorough and an extensive review of the state of the arts approaches, key models design principles and discuss existing datasets, methods, their problem formulation and evaluation measures for VQA and Visual reasoning tasks to understand vision and language representation learning. We also present some potential future paths in this field of research, with the hope that our study may generate new ideas and novel approaches to handle existing difficulties and develop new applications.
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译
视频问题应答(VideoQA),旨在基于了解多模态视频内容正确回答给定的问题,由于视频内容丰富,这是具有挑战性的。从视频理解的角度来看,良好的视频仪框架需要了解不同语义级别的视频内容,并灵活地将不同的视频内容集成到蒸馏问题相关内容。为此,我们提出了一个名为Livlr的轻量级视觉语言推理框架。具体地,Livlr首先利用基于图形的视觉和语言编码器来获得多粒度的视觉和语言表示。随后,所获得的表示与设计的分集感知视觉语言推理模块(DAVL)集成。 DAVL考虑不同类型的表示之间的差异,并且在生成问题相关的联合表示时可以灵活地调整不同类型表示的重要性,这是一种有效和一般的表示集成方法。拟议的LIVLR轻量级,并在两个VideoQ基准,MRSVTT-QA和了解VQA上显示了其性能优势。广泛的消融研究证明了LIVLR关键部件的有效性。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
视觉问题回答(VQA)本质上是从根本上组成的,许多问题仅通过将它们分解为模块化子问题就可以回答。最新提出的神经模块网络(NMN)采用此策略来问答案,而在现成的布局解析器或有关网络体系结构设计的其他专家政策中,而不是从数据中学习。这些策略导致对输入的语义复杂差异的适应性不令人满意,从而阻碍了模型的表示能力和概括性。为了解决这个问题,我们提出了一个语义吸引的模块化胶囊路由框架,称为Super,以更好地捕获特定实例的视觉 - 语义特征并完善预测的判别性表示。特别是,在超级网络的每一层中都定制了五个功能强大的专用模块以及动态路由器,并构造了紧凑的路由空间,使得可以充分利用各种可自定义的路由,并且可以明确校准视觉声称表示。我们相对证明,我们提出的超级方案在五个基准数据集以及参数效率优势上的有效性和概括能力合理。值得强调的是,这项工作不是在VQA中追求最先进的结果。取而代之的是,我们希望我们的模型有责任为VQA提供建筑学习和表示校准的新颖观点。
translated by 谷歌翻译
以前的研究如vizwiz发现,可以阅读的视觉问题(VQA)系统可以阅读和图像中的文本的理由在辅助视觉上受损人群的应用领域很有用。 TextVQA是一个用于这个问题的VQA数据集,其中问题需要回答系统来读取和理由图像中的视觉对象和文本对象。 TextVQA中的一个关键挑战是系统的设计,有效地是单独的视觉和文本对象的理由,而且还有关于这些对象之间的空间关系。这激励了使用“边缘特征”,即关于每对对象之间的关系的信息。一些当前TextVQA模型解决了这个问题,但只使用关系类别(而不是边缘特征向量),或者不要在变压器架构中使用边缘功能。为了克服这些缺点,我们提出了一种曲线图形关系变压器(GRT),除了节点信息之外,还使用边缘信息进行变压器中的图注意计算。我们发现,在不使用任何其他优化的情况下,所提出的GRT方法优于M4C基线模型的精度0.65%在Val Set上的精度和测试集0.57%。定性,我们观察到GRT对M4C具有卓越的空间推理能力。
translated by 谷歌翻译
在本文中,我们提出了端到端的结构化多峰关注(SMA)神经网络,主要解决了上述前两个问题。 SMA首先使用结构图表示来编码图像中出现的对象对象,对象文本和文本文本关系,然后设计多模式图注意网络以推理它。最后,由上述模块的输出由全局本地注意力应答模块处理,以通过跟随M4C迭代地生成从两个OCR和常规词汇拼接的答案。我们所提出的模型优于TextVQA数据集上的SOTA模型以及除基于预先训练的水龙头之外的所有模型中的所有模型中的ST-VQA数据集的两个任务。展示了强大的推理能力,它还在TextVQA挑战中获得了第一名的第一名。我们在几种推理模型中广泛测试了不同的OCR方法,并调查了逐步提高了OCR性能对TextVQA基准的影响。通过更好的OCR结果,不同的型号对VQA准确性的戏剧性提高,但我们的模型受益最强烈的文本视觉推理能力。要授予我们的方法,并为进一步作品提供公平的测试基础,我们还为TextVQA数据集提供人为的地面实际OCR注释,这些ocr注释未在原始版本中提供。 TextVQA数据集的代码和地面ocr注释在https://github.com/chenyugao-cs/sma提供
translated by 谷歌翻译
3D场景理解是一个相对新兴的研究领域。在本文中,我们介绍了3D现实世界场景(VQA-3D)中的视觉问题应答任务,旨在给出3D场景的所有可能的问题。为了解决这个问题,提出了第一个VQA-3D数据集,即CLEVR3D,其中包含在1,129个现实世界场景中的60k个问题。具体而言,我们开发一个问题发动机利用3D场景图结构来生成不同的推理问题,涵盖物体属性的问题(即,大小,颜色和材料)及其空间关系。建立在此数据集之上,我们进一步设计了第一个VQA-3D基线模型TransVQA3D。 TransVQA3D型号采用精心设计的变压器架构,实现优越的VQA-3D性能,与纯语言基线和先前的3D推理方法直接应用于3D场景。实验结果验证了VQA-3D作为辅助任务可以提高3D场景理解的性能,包括节点明智分类和全图识别的场景图分析。
translated by 谷歌翻译
为了实现一般的视觉问题回答(VQA)系统,必须学会回答需要在图像和外部知识上进行组成推理的更深入的问题。同时,应明确并可以解释推理过程,以了解模型的工作机制。对于人类而言,这毫不费力,但对于机器来说具有挑战性。在本文中,我们提出了一个层次图神经模块网络(HGNMN),该网络将其用于具有神经模块的多层图上的原因来解决上述问题。具体而言,我们首先通过视觉,语义和常识视图从多层图编码图像,因为支持答案的线索可能以不同的方式存在。我们的模型由几个精心设计的神经模块组成,这些神经模块在图形上执行特定的功能,这些模块可用于在不同图表内和之间进行多步推理。与现有的模块化网络相比,我们将视觉推理从一个图扩展到更多图。我们可以根据模块的权重和图形关注来明确跟踪推理过程。实验表明,我们的模型不仅可以在CRIC数据集上实现最先进的性能,而且还获得了明确且可解释的推理程序。
translated by 谷歌翻译
A number of recent works have proposed attention models for Visual Question Answering (VQA) that generate spatial maps highlighting image regions relevant to answering the question. In this paper, we argue that in addition to modeling "where to look" or visual attention, it is equally important to model "what words to listen to" or question attention. We present a novel co-attention model for VQA that jointly reasons about image and question attention. In addition, our model reasons about the question (and consequently the image via the co-attention mechanism) in a hierarchical fashion via a novel 1-dimensional convolution neural networks (CNN). Our model improves the state-of-the-art on the VQA dataset from 60.3% to 60.5%, and from 61.6% to 63.3% on the COCO-QA dataset. By using ResNet, the performance is further improved to 62.1% for VQA and 65.4% for COCO-QA. 1 .
translated by 谷歌翻译
现有的视觉问题回答方法倾向于捕获视觉和语言方式中的虚假相关性,并且未能发现真正的休闲机制,这些机制是基于主导的视觉证据和正确的问题意图而实现推理的真正休闲机制。此外,现有方法通常忽略了多模式设置中复杂的事件级别的理解,这需要因果推断对共同模型跨模式事件的时间性,因果关系和动力学的强大认知能力。在这项工作中,我们通过引入因果干预方法来减轻虚假相关性并发现真实的因果结构,从而从新的角度(即跨模式因果关系推理)回答事件级别的视觉问题,即跨模式的因果关系推理并发现了真实的因果结构,以集成视觉和语言的相关性方式。具体而言,我们提出了一个新颖的事件级视觉问题答案框架,称为跨模式因果关系推理(CMCIR),以实现强大的偶然性随意感知的视觉视觉语言问题。为了揭示视觉和语言方式的因果结构,提出了新颖的因果关系 - 感知视觉语言推理(CVLR)模块,以通过精心设计的前对门和后门Causal Causal Intervention模块进行合作地解散视觉和语言的杂语相关性。为了发现语言语义和时空表示之间的细粒度相互作用,我们构建了一种新型的时空变压器(STT),该变压器(STT)构建了视觉内容和语言内容之间的多模式共发生相互作用。大规模事件级城市数据集SUTD-TrafficQA和三个基准现实世界数据集TGIF-QA,MSVD-QA和MSRVTT-QA进行了广泛的实验,这证明了我们的CMCIR在发现视觉效果的Causal Causal Causal结构中的有效性。
translated by 谷歌翻译
Most TextVQA approaches focus on the integration of objects, scene texts and question words by a simple transformer encoder. But this fails to capture the semantic relations between different modalities. The paper proposes a Scene Graph based co-Attention Network (SceneGATE) for TextVQA, which reveals the semantic relations among the objects, Optical Character Recognition (OCR) tokens and the question words. It is achieved by a TextVQA-based scene graph that discovers the underlying semantics of an image. We created a guided-attention module to capture the intra-modal interplay between the language and the vision as a guidance for inter-modal interactions. To make explicit teaching of the relations between the two modalities, we proposed and integrated two attention modules, namely a scene graph-based semantic relation-aware attention and a positional relation-aware attention. We conducted extensive experiments on two benchmark datasets, Text-VQA and ST-VQA. It is shown that our SceneGATE method outperformed existing ones because of the scene graph and its attention modules.
translated by 谷歌翻译
Vision-Language预培训(VLP)旨在从图像文本对中学习多模态表示,并以微调方式为下游视觉语言任务服务。主导VLP模型采用CNN变压器架构,该架构将图像与CNN嵌入,然后使用变压器对齐图像和文本。视觉内容之间的视觉关系在图像理解中发挥着重要作用,并且是模态对齐学习的基本。然而,由于局部接受领域在建模远程依赖性方面的弱点,CNNS具有局限性。因此,在相同的变压器网络中封装了学习视觉关系和模态对齐的两个目标。这种设计可能通过忽略每个目标的专用特性来限制变压器中的模态对准学习。为了解决这个问题,我们提出了一个完全变压器视觉嵌入VLP,以更好地学习视觉关系,进一步促进模态对齐。具体地,我们提出了一个名为Domank跨性流量的度量(IMF),以测量视觉和语言模态之间的交互(即,互别互别)。我们还设计了一种名为Massed Featuber Resollion(MFR)的新型屏蔽优化机制,在变压器中进一步推广了模范间学习。据我们所知,这是第一项探索VLP中可视化特征学习的变压器的利益的研究。我们在广泛的视觉语言任务中验证了我们的方法,包括图像文本检索,视觉问题应答(VQA),视觉征求和视觉推理。我们的方法不仅优于最先进的VLP性能,而且还显示了对IMF度量的好处。
translated by 谷歌翻译
基于文本的视觉问题回答〜(TextVQA)旨在为具有多个场景文本的图像问题提供正确的答案。在大多数情况下,文本自然附着在物体表面上。因此,文本和对象之间的空间推理在文本VQA中至关重要。但是,现有方法在从输入图像中学到的2D空间信息中受到限制,并依靠基于变压器的体系结构在融合过程中隐含地推理。在此设置下,这些2D空间推理方法无法区分同一图像平面上的视觉对象和场景文本之间的细颗粒空间关系,从而损害了TextVQA模型的可解释性和性能。在本文中,我们将3D几何信息引入了类似人类的空间推理过程,以逐步捕获关键对象的上下文知识。 %我们通过引入3D几何信息来捕获关键对象的上下文知识来制定类似人类的空间推理过程。为了增强模型对3D空间关系的理解,特别是(i)〜我们提出了一个关系预测模块,以准确定位关键对象的关注区域; (ii)〜我们设计了一个深度感知的注意校准模块,以根据关键对象校准OCR令牌的注意力。广泛的实验表明,我们的方法在TextVQA和ST-VQA数据集上实现了最先进的性能。更令人鼓舞的是,我们的模型在涉及TextVQA和ST-VQA有效拆分中的空间推理的问题上以5.7 \%和12.1 \%的明显边缘超过了他人。此外,我们还验证了模型对基于文本的图像字幕任务的普遍性。
translated by 谷歌翻译
Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.
translated by 谷歌翻译
3D密集字幕是最近提供的新型任务,其中点云包含比2D对应物更多的几何信息。但是,由于点云中包含的更高复杂性和更广泛的对象关系,它也更具挑战性。现有方法仅将这种关系视为图表中对象特征学习的副产品,而无需特别编码它们,从而导致了亚最佳结果。在本文中,旨在通过捕获和利用3D场景中的复杂关系来改善3D密集的字幕,我们提出了更多的多阶关系挖掘模型,以支持产生更多的描述性和全面标题。从技术上讲,我们更多地以渐进的方式编码对象关系,因为可以从有限数量的基本关系中推论复杂的关系。我们首先设计了一种新型的空间布局图卷积(SLGC),该图形将几个一阶关系编码为在3D对象建议上构造的图的边缘。接下来,从结果图中,我们进一步提取多个三重态,这些三重态将基本的一阶关系封装为基本单元,并构造几个以对象为中心的三重态注意图(OTAG),以推断每个目标对象的多阶关系。将OTAG的更新的节点功能聚合并输入标题解码器,以提供丰富的关系提示,因此可以生成包括与上下文对象的不同关系的字幕。 SCAN2CAP数据集的广泛实验证明了我们提出的更多及其组件的有效性,并且我们也表现优于当前最新方法。我们的代码可从https://github.com/sxjyjay/more获得。
translated by 谷歌翻译
最近的几项研究指出,现有的视觉问题回答(VQA)模型严重遭受了先前的问题的困扰,这是指捕获问题类型和答案之间的表面统计相关性,而忽略了图像内容。通过创建精致的模型或引入额外的视觉注释,已经致力于加强图像依赖性。但是,这些方法无法充分探索视觉提示如何显式影响学习的答案表示,这对于减轻语言的依赖至关重要。此外,他们通常强调对学习的答案表示形式的班级歧视,这忽略了更精细的实例级别模式,并要求进一步优化。在本文中,我们从视觉扰动校准的角度提出了一种新颖的协作学习方案,该方案可以更好地研究细粒度的视觉效果,并通过学习实例级别的特征来减轻语言的先验问题。具体而言,我们设计了一个视觉控制器来构建具有不同扰动范围的两种策划图像,基于该图像的协作学习内置不变性和实体歧视的协作学习由两个精心设计的歧视者实现。此外,我们在潜在空间上实施信息瓶颈调制器,以进一步减轻偏见和表示校准。我们将视觉扰动感知框架强加于三个正统基准,并将实验结果对两个诊断性VQA-CP基准数据集进行了实验结果,显然表明了其有效性。此外,我们还证明了它在平衡的VQA基准上的鲁棒性是合理的。
translated by 谷歌翻译