在这项工作中,我们专注于改善图像捕获生成系统生成的字幕。我们提出了一种新型的重新排列方法,该方法利用视觉声音措施来确定最大程度地捕获图像中视觉信息的理想标题。我们的重新级别使用了信念修订框架(Blok等,2003),通过明确利用所描绘的标题和视觉上下文之间的语义相关性来校准顶级字幕的原始可能性。我们的实验证明了我们方法的实用性,我们观察到我们的重新级别可以增强典型的图像捕获系统的性能,而无需进行任何额外的培训或微调。
translated by 谷歌翻译
石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
依赖图被证明是一个非常成功的模型,可以代表人类语言句子的句法结构。在这些图中,被广泛接受为树,顶点是单词,而弧线连接了句法依赖的单词。这些依赖关系的趋势已使用随机基线来证明边缘或其变体的长度之和。无处不在的基线是投影订单中的预期总和(其中边缘不交叉,句子的词根不涵盖任何边缘)。结果表明,可以以$ o(n)$时间计算所述期望值。在本文中,我们重点介绍平面顺序(可以涵盖词根单词),并提出两个主要结果。首先,我们显示了平面布置中的预期总和与投影安排中的预期总和之间的关系。其次,我们还得出了$ o(n)$ - 时间算法来计算边缘长度总和的预期值。这两个结果源于本文的另一项贡献,即平面的表征,鉴于句子,它产生了平面排列的数量或有效的算法,以生成单词的均匀随机平面排列。我们的研究铺平了为使用随机平面线性化作为随机基线的随机平面线性化而复制过去的研究研究的道路。
translated by 谷歌翻译
最大线性布置问题(MAXLA)包括从图$ g $的$ n $顶点查找映射$ \ pi $到最大化$ d _ {\ pi}(g)= \ sum_ {uv \ {uv \ {uv \ \ \在e(g)} | \ pi(u) - \ pi(v)| $。在这种情况下,顶点被认为位于水平线上,边缘在线上上方的半圆时绘制。存在限制安排的MaxLA的变体。在平面变体中,边缘交叉被禁止。在塑料树排列的投射变体中,是平面,根不能被任何边缘覆盖。在这里,我们提出$ o(n)$ - 时间和$ o(n)$ - 空间算法,这些算法可以解决树木的平面和射击maxla。我们还证明了最大投影和平面布置的几个属性。
translated by 谷歌翻译
提高搜索结果的质量可以显着增强用户的体验和与搜索引擎的交战。尽管机器学习和数据挖掘领域的最新进展,但正确对特定用户搜索查询的项目进行了分类一直是一个长期的挑战,这仍然有很大的改进空间。本文介绍了“购物查询数据集”,这是一个很大的亚马逊搜索查询和结果的大型数据集,以促进研究以提高搜索结果的质量,以促进研究。该数据集包含大约1.3万个独特的查询和260万手动标记(查询,产品)相关性判断。该数据集具有多语言,其中包括英语,日语和西班牙语的查询。购物查询数据集用于KDDCUP'22挑战之一。在本文中,我们描述了数据集并介绍了三个评估任务以及基线结果:(i)对结果列表进行排名,(ii)将产品结果分类为相关性类别,以及(iii)确定给定查询的替代产品。我们预计这些数据将成为产品搜索主题的未来研究的黄金标准。
translated by 谷歌翻译
在依赖语法和定量语言学之间的十字路口中出现了新的和越来越多的定量依赖性语法。该领域的主要问题之一是句法依赖结构的统计模式。在树木银行中分组的这些结构是这些和相关领域的统计分析的来源;多年来设计的数十分是一个新行业的工具,用于搜索模式并执行其他类型的分析。这种度量的多种多数和他们的越来越复杂性需要共享用于执行此类分析的程序的源代码。但是,这些代码通常不与科学界共享,或者在未知标准之后进行测试。在这里,我们展示了一个新的开源工具,线性排列库(LAL),它迎合了尤其是缺乏经验的程序员的需求。此工具可以在单个语法依赖性结构,树班斯和TreeBanks集合上计算这些指标,易于使用,但具有极大的灵活性。 LAL设计为高效,易于使用(同时满足各级编程专业知识的需求),可靠(由于彻底测试),并从不同传统,地理区域和研究领域联合研究。
translated by 谷歌翻译
对于沉浸式应用,匹配视觉同行的双耳发电是对虚拟环境中的人们带来有意义的体验至关重要。最近的作品已经显示了使用神经网络来使用2D视觉信息作为指导来使用Mono音频来合成双耳音频。通过使用3D视觉信息引导音频并在波形域中操作来扩展该方法可以允许虚拟音频场景的更准确的Auratization。在本文中,我们提供了一个多模态深入学习模型的点,它使用3D点云场景从单声道音频生成双耳版本。具体地,Point2Sound由具有3D稀疏卷积的视觉网络组成,其从点云场景中提取视觉特征来调节操作在波形域中的音频网络,以合成双耳网络。实验结果表明,3D视觉信息可以成功引导双模深度学习模型的双耳合成任务。此外,我们还调查了不同的丢失函数和3D点云属性,显示直接预测完整的双耳信号并使用RGB深度特征增加了我们所提出的模型的性能。
translated by 谷歌翻译