我们将后处理应用于音频事件分类模型的类概率分布输出,并采用强化学习来共同发现后处理堆栈的各个阶段的最佳参数,例如分类阈值和所使用的中间过滤算法的内核大小平滑模型预测。为了实现这一目标,我们定义了一个强化学习环境:1)状态是该模型为给定音频样本提供的类概率分布,2)操作是选择后处理的每个参数的候选最佳值堆栈,3)奖励基于我们旨在优化的分类准确度度量,即在我们的情况下,这是基于音频事件的宏F1得分。我们将我们的后处理应用于两个音频事件分类模型的类概率分布输出,这些模型已提交给Dcase Task4 2020挑战。我们发现,通过使用强化学习来发现应用于音频事件分类模型输出的后处理堆栈的最佳每级参数,我们可以改进基于音频事件的宏F1分数(使用的主要指标在DCASE挑战中,将音频事件分类精度比较4-5%,与使用手动调谐参数相同的后处理堆栈相比。
translated by 谷歌翻译
在这项工作中,我们将深度加强施加到导航三维环境的问题,并在唯一可用信息是来自环境的原始声音的情况下推断出人类扬声器音频源的位置,作为模拟的人类侦听器放在环境中会听到它。为此目的,我们使用Unity游戏引擎创建两个虚拟环境,其中一个呈现基于音频的导航问题,一个呈现音频源定位问题。我们还根据PPO在线强化学习算法创建一个自主代理,并试图培训它来解决这些环境。我们的实验表明,即使在有限数量的训练数据或在训练期间没有遇到的方式,也可以通过定量度量来实现这两种环境中的足够性能和泛化能力。我们还表明,在环境之间可以实现一定程度的代理知识转移。
translated by 谷歌翻译
The deep neural network (DNN) models for object detection using camera images are widely adopted in autonomous vehicles. However, DNN models are shown to be susceptible to adversarial image perturbations. In the existing methods of generating the adversarial image perturbations, optimizations take each incoming image frame as the decision variable to generate an image perturbation. Therefore, given a new image, the typically computationally-expensive optimization needs to start over as there is no learning between the independent optimizations. Very few approaches have been developed for attacking online image streams while considering the underlying physical dynamics of autonomous vehicles, their mission, and the environment. We propose a multi-level stochastic optimization framework that monitors an attacker's capability of generating the adversarial perturbations. Based on this capability level, a binary decision attack/not attack is introduced to enhance the effectiveness of the attacker. We evaluate our proposed multi-level image attack framework using simulations for vision-guided autonomous vehicles and actual tests with a small indoor drone in an office environment. The results show our method's capability to generate the image attack in real-time while monitoring when the attacker is proficient given state estimates.
translated by 谷歌翻译
Pre-trained Transformers currently dominate most NLP tasks. They impose, however, limits on the maximum input length (512 sub-words in BERT), which are too restrictive in the legal domain. Even sparse-attention models, such as Longformer and BigBird, which increase the maximum input length to 4,096 sub-words, severely truncate texts in three of the six datasets of LexGLUE. Simpler linear classifiers with TF-IDF features can handle texts of any length, require far less resources to train and deploy, but are usually outperformed by pre-trained Transformers. We explore two directions to cope with long legal texts: (i) modifying a Longformer warm-started from LegalBERT to handle even longer texts (up to 8,192 sub-words), and (ii) modifying LegalBERT to use TF-IDF representations. The first approach is the best in terms of performance, surpassing a hierarchical version of LegalBERT, which was the previous state of the art in LexGLUE. The second approach leads to computationally more efficient models at the expense of lower performance, but the resulting models still outperform overall a linear SVM with TF-IDF features in long legal document classification.
translated by 谷歌翻译
近年来,通过编码签名距离的神经网络的隐式表面表示已获得流行,并获得了最先进的结果。但是,与传统的形状表示(例如多边形网格)相反,隐式表示不容易编辑,并且试图解决此问题的现有作品非常有限。在这项工作中,我们提出了第一种通过神经网络表达的签名距离函数有效互动编辑的方法,从而可以自由编辑。受到网格雕刻软件的启发,我们使用了一个基于刷子的框架,该框架是直观的,将来可以由雕塑家和数字艺术家使用。为了定位所需的表面变形,我们通过使用其副本来调节网络来采样先前表达的表面。我们引入了一个新型框架,用于模拟雕刻风格的表面编辑,并结合交互式表面采样和网络重量的有效适应。我们在各种不同的3D对象和许多不同的编辑下进行定性和定量评估我们的方法。报告的结果清楚地表明,我们的方法在实现所需的编辑方面产生了很高的精度,同时保留了交互区域之外的几何形状。
translated by 谷歌翻译
与原子分辨率上可实现的分子量相比,粗晶片(CG)能够研究较大系统和更长的时间尺度的分子特性。最近已经提出了机器学习技术来学习CG粒子相互作用,即开发CG力场。分子的图表和图形卷积神经网络结构的监督训练用于通过力匹配方案来学习平均力的潜力。在这项工作中,作用在每个CG粒子上的力与以Schnet的名义相关的其本地环境的表示,该代表通过连续过滤器卷积构建。我们探讨了Schnet模型在获得液体苯的CG潜力的应用,研究模型结构和超参数对模拟CG系统的热力学,动力学和结构特性的影响,并报告和讨论所设想的挑战以及未来的指导。
translated by 谷歌翻译
由于大分子系统中存在的各种时间尺度,其计算研究是必要的。粗粒(CG)允许在不同的系统分辨率之间建立联系,并为开发强大的多尺度模拟和分析提供骨干。 CG映射过程通常是系统和特定于应用程序的,它依赖于化学直觉。在这项工作中,我们探讨了基于变异自动编码器的机器学习策略的应用,以开发合适的映射方案,从原子体到分子的粗粒空间,并随着化学复杂性的增加而开发。对模型超级法对训练过程和最终输出的影响进行了广泛的评估,并通过定义不同的损失函数的定义进行了现有方法,并实施了确保输出物理一致性的选择标准。分析了输入特征选择与重建精度之间的关系,从而支持将旋转不变性引入系统的需求。在映射和背景步骤中,该方法的优势和局限性都得到了强调和严格的讨论。
translated by 谷歌翻译
在软件开发过程中,开发人员需要回答有关代码语义方面的查询。即使已经用神经方法进行了广泛的自然语言研究,但尚未探索使用神经网络对代码回答语义查询的问题。这主要是因为没有现有的数据集,具有提取性问答和答案对,涉及复杂概念和较长推理的代码。我们通过构建一个名为Codequeries的新的,策划的数据集并提出了一种关于代码的神经问题方法来弥合这一差距。我们基于最先进的预训练的代码模型,以预测答案和支持事实跨度。给定查询和代码,只有一些代码可能与回答查询有关。我们首先在理想的环境下进行实验,其中仅给出了模型的相关代码,并表明我们的模型做得很好。然后,我们在三个务实的考虑因素下进行实验:(1)扩展到大尺寸的代码,(2)从有限数量的示例中学习,(3)代码中对次要语法错误的鲁棒性。我们的结果表明,虽然神经模型可以抵御代码中的次要语法错误,代码的大小增加,与查询无关的代码的存在以及减少的培训示例数量限制了模型性能。我们正在释放数据和模型,以促进未来关于回答代码语义查询的问题的工作。
translated by 谷歌翻译
一致性检查技术使我们能够评估某些表现出的行为,以一系列受监视的事件表示,符合指定的过程模型。现代监测和活动识别技术,例如依靠传感器,物联网,统计和AI的技术,可以产生大量相关的事件数据。但是,与符合检查算法所需的确定性事件对数的假设相反,该数据通常以噪声和不确定性为特征。在本文中,我们将基于对齐的一致性检查扩展到概率事件日志下的功能。我们介绍了一个概率痕量模型和对齐成本函数,以及一个自定义阈值参数,该参数控制事件数据与过程模型的信任水平。与传统比对相比,在存在足够高的可能性的对齐事件的情况下,所得算法得出的适应性得分提高,因此假阳性偏差较少。我们从形式和直观的角度来解释算法及其动机,并与使用一组理论示例相比,证明了其功能与确定性对齐相比。
translated by 谷歌翻译
在本文中,我们介绍了一条神经渲染管道,用于将一个人在源视频中的面部表情,头部姿势和身体运动转移到目标视频中的另一个人。我们将方法应用于手语视频的具有挑战性的案例:给定手语用户的源视频,我们可以忠实地传输执行的手册(例如握手,棕榈方向,运动,位置)和非手术(例如,眼睛凝视,凝视,面部表情,头部移动)以照片真实的方式标志着目标视频。为了有效捕获上述提示,这些线索对于手语交流至关重要,我们以最近引入的最健壮和最可靠的深度学习方法的有效组合来建立。使用3D感知表示,将身体部位的估计运动组合并重新定位到目标签名者。然后将它们作为我们的视频渲染网络的条件输入,从而生成时间一致和照片现实的视频。我们进行了详细的定性和定量评估和比较,这些评估和比较证明了我们的方法的有效性及其对现有方法的优势。我们的方法产生了前所未有的现实主义的有希望的结果,可用于手语匿名。此外,它很容易适用于重新制定其他类型的全身活动(舞蹈,表演,锻炼等)以及手语生产系统的合成模块。
translated by 谷歌翻译