Urban traffic speed prediction aims to estimate the future traffic speed for improving the urban transportation services. Enormous efforts have been made on exploiting spatial correlations and temporal dependencies of traffic speed evolving patterns by leveraging explicit spatial relations (geographical proximity) through pre-defined geographical structures ({\it e.g.}, region grids or road networks). While achieving promising results, current traffic speed prediction methods still suffer from ignoring implicit spatial correlations (interactions), which cannot be captured by grid/graph convolutions. To tackle the challenge, we propose a generic model for enabling the current traffic speed prediction methods to preserve implicit spatial correlations. Specifically, we first develop a Dual-Transformer architecture, including a Spatial Transformer and a Temporal Transformer. The Spatial Transformer automatically learns the implicit spatial correlations across the road segments beyond the boundary of geographical structures, while the Temporal Transformer aims to capture the dynamic changing patterns of the implicit spatial correlations. Then, to further integrate both explicit and implicit spatial correlations, we propose a distillation-style learning framework, in which the existing traffic speed prediction methods are considered as the teacher model, and the proposed Dual-Transformer architectures are considered as the student model. The extensive experiments over three real-world datasets indicate significant improvements of our proposed framework over the existing methods.
translated by 谷歌翻译
Table of contents (ToC) extraction aims to extract headings of different levels in documents to better understand the outline of the contents, which can be widely used for document understanding and information retrieval. Existing works often use hand-crafted features and predefined rule-based functions to detect headings and resolve the hierarchical relationship between headings. Both the benchmark and research based on deep learning are still limited. Accordingly, in this paper, we first introduce a standard dataset, HierDoc, including image samples from 650 documents of scientific papers with their content labels. Then we propose a novel end-to-end model by using the multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model is mainly composed of three parts, namely encoder, classifier, and decoder. The encoder fuses the multimodality features of vision, text, and layout information for each entity of the document. Then the classifier recognizes and selects the heading entities. Next, to parse the hierarchical relationship between the heading entities, a tree-structured decoder is designed. To evaluate the performance, both the metric of tree-edit-distance similarity (TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of HierDoc. The code and dataset will be released at: https://github.com/Pengfei-Hu/MTD.
translated by 谷歌翻译
当前的NLP技术已在不同的域中极大地应用。在本文中,我们提出了一个在杂乱无章的场景中机器人抓握的人类框架,调查了掌握过程的语言接口,该框架使用户可以通过自然语言命令进行干预。该框架是在最先进的ras基线基线上构建的,在那里我们使用bert代替场景图表代表场景的文本表示。对模拟和物理机器人的实验表明,所提出的方法在文献中优于基于对象敏捷和场景图的常规方法。此外,我们发现,通过人类干预,绩效可以大大提高。
translated by 谷歌翻译
图对比度学习(GCL)一直是图形自学学习的新兴解决方案。 GCL的核心原理是在正视图中降低样品之间的距离,但在负视图中增加样品之间的距离。在实现有希望的性能的同时,当前的GCL方法仍然受到两个局限性:(1)增强的不可控制的有效性,该图扰动可能会产生针对语义和图形数据的特征流程的无效视图; (2)不可靠的二进制对比理由,对于非欧几里得图数据而言,难以确定构造观点的积极性和负面性。为了应对上述局限性,我们提出了一个新的对比度学习范式,即图形软对比度学习(GSCL),该范例通过排名的社区无需任何增强和二进制对比符合性,在较细性的范围内进行对比度学习。 GSCL建立在图接近的基本假设上,即连接的邻居比遥远的节点更相似。具体而言,我们在配对和列表的封闭式排名中,以保留附近的相对排名关系。此外,随着邻里规模的指数增长,考虑了更多的啤酒花,我们提出了提高学习效率的邻里抽样策略。广泛的实验结果表明,我们提出的GSCL可以始终如一地在各种公共数据集上实现与GCL相当复杂的各种公共数据集的最新性能。
translated by 谷歌翻译
安全的加强学习(RL)研究智能代理人不仅必须最大程度地提高奖励,而且还要避免探索不安全领域的问题。在这项研究中,我们提出了CUP,这是一种基于约束更新投影框架的新型政策优化方法,享有严格的安全保证。我们杯杯发展的核心是新提出的替代功能以及性能结合。与以前的安全RL方法相比,杯子的好处1)杯子将代孕功能推广到广义优势估计量(GAE),从而导致强烈的经验性能。 2)杯赛统一性界限,为某些现有算法提供更好的理解和解释性; 3)CUP仅通过一阶优化器提供非凸的实现,该优化器不需要在目标的凸面上进行任何强近似。为了验证我们的杯子方法,我们将杯子与在各种任务上进行的安全RL基线的全面列表进行了比较。实验表明杯子在奖励和安全限制满意度方面的有效性。我们已经在https://github.com/rl-boxes/safe-rl/tree/ main/cup上打开了杯子源代码。
translated by 谷歌翻译
实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
已经观察到,可以从这两种方式中提取视听嵌入,以获得人验证的稳健性。但是,似乎从每个帧中生成单个话语表示的聚合器似乎并未得到很好的探索。在本文中,我们提出了一个视听网络,该网络从融合的角度考虑聚合器。我们首次在面对面验证中引入了改进的细心统计数据。然后,我们发现合并过程中的模式之间存在很强的相关性,因此提出了关节关注的合并,其中包含循环一致性以学习隐式框架间的重量。最后,将这种方式与封闭的注意机制融合在一起。所有提出的型号均在Voxceleb2开发数据集上进行培训,最佳系统分别在Voxceleb1的三个正式步道列表中获得0.18 \%,0.27 \%和0.49 \%EER,据我们所知,这是个人发布的最佳成绩确认。作为分析,生成可视化图来解释该系统如何在模态之间相互作用。
translated by 谷歌翻译
手指静脉识别是一种新兴的生物识别识别技术。与人体表面上的其他生物特征不同,手指的静脉血管组织被埋在皮肤深处。由于这种优势,手指静脉识别是高度稳定和私人的。它们几乎不可能被外部条件偷走且难以干预。与基于传统机器学习的手指静脉识别方法不同,人工神经网络技术,尤其是深度学习,它不依赖功能工程并具有出色的性能。为了总结基于人工神经网络的手指静脉识别的发展,本文收集了149篇相关论文。首先,我们介绍了手指静脉识别的背景和这项调查的动机。然后,引入了人工神经网络的发展历史和手指静脉识别任务上的代表网络。然后描述在手指静脉识别中广泛使用的公共数据集。之后,我们分别基于经典神经网络和深层神经网络总结了相关的手指静脉识别任务。最后,讨论了手指静脉识别的挑战和潜在发展方向。据我们所知,本文是第一次综合调查,重点是基于人工神经网络的指静脉识别。
translated by 谷歌翻译
在许多应用中,机器学习(ML)模型需要保持一些不变性质量,例如旋转,大小,强度和背景不变性。与多种类型的方差不同,背景场景的变体不能轻易排序,这使得很难分析有关模型的稳健性和偏见。在这项工作中,我们提出了一种技术解决方案,可根据其语义近距离订购背景场景,该场景与包含正在测试的前景对象的目标图像。我们利用对象识别的结果作为每个图像的语义描述,并构建一个本体,用于使用关联分析在不同对象之间存储有关关系的知识。该本体学启用(i)有效而有意义的搜索对目标图像的不同语义距离的背景场景,(ii)对采样背景场景的分布和稀疏性的定量控制,以及(iii)使用不变性测试的视觉表示的质量保证结果(称为方差矩阵)。在本文中,我们还报告了ML4ML评估器的培训,以自动评估ML模型的不变性质量。
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译