Designing better deep networks and better reinforcement learning (RL) algorithms are both important for deep RL. This work focuses on the former. Previous methods build the network with several modules like CNN, LSTM and Attention. Recent methods combine the Transformer with these modules for better performance. However, it requires tedious optimization skills to train a network composed of mixed modules, making these methods inconvenient to be used in practice. In this paper, we propose to design \emph{pure Transformer-based networks} for deep RL, aiming at providing off-the-shelf backbones for both the online and offline settings. Specifically, the Transformer in Transformer (TIT) backbone is proposed, which cascades two Transformers in a very natural way: the inner one is used to process a single observation, while the outer one is responsible for processing the observation history; combining both is expected to extract spatial-temporal representations for good decision-making. Experiments show that TIT can achieve satisfactory performance in different settings, consistently.
translated by 谷歌翻译
Open-retrieval conversational machine reading comprehension (OCMRC) simulates real-life conversational interaction scenes. Machines are required to make a decision of "Yes/No/Inquire" or generate a follow-up question when the decision is "Inquire" based on retrieved rule texts, user scenario, user question, and dialogue history. Recent studies explored the methods to reduce the information gap between decision-making and question generation and thus improve the performance of generation. However, the information gap still exists because these pipeline structures are still limited in decision-making, span extraction, and question rephrasing three stages. Decision-making and generation are reasoning separately, and the entailment reasoning utilized in decision-making is hard to share through all stages. To tackle the above problem, we proposed a novel one-stage end-to-end framework, called Entailment Fused-T5 (EFT), to bridge the information gap between decision-making and generation in a global understanding manner. The extensive experimental results demonstrate that our proposed framework achieves new state-of-the-art performance on the OR-ShARC benchmark.
translated by 谷歌翻译
对话机阅读理解(CMRC)旨在帮助计算机理解自然语言文本,然后进行多转交谈以回答与文本有关的问题。现有方法通常需要三个步骤:(1)基于需要推理的决策; (2)如果上述决定的要求,请跨越提取; (3)基于提取的跨度重新绘制问题。但是,对于几乎所有这些方法,跨度提取和问题的改写步骤无法完全利用决策制定步骤中的细粒度构成推理信息,因为它们的相对独立性将进一步扩大决策制定和问题措辞之间的信息差距。因此,为了解决这个问题,我们提出了一个基于共享参数机制的对话机读取理解理解的新颖端到端框架,称为Intailment推理T5(ET5)。尽管我们提出的框架轻量级,但实验结果表明,拟议的ET5以55.2的BLEU-4分数在Sharc排行榜上取得了新的最新结果。我们的模型和代码可在https://github.com/yottaxx/et5上公开获取。
translated by 谷歌翻译
3D点云正在成为许多现实世界应用中的关键数据表示形式,例如自动驾驶,机器人技术和医学成像。尽管深度学习的成功进一步加速了物理世界中3D点云的采用,但深度学习因其易受对抗性攻击的脆弱性而臭名昭著。在这项工作中,我们首先确定最先进的经验防御,对抗性训练,由于梯度混淆,在适用于3D点云模型方面有一个重大限制。我们进一步提出了PointDP,这是一种纯化策略,利用扩散模型来防御3D对抗攻击。我们对六个代表性3D点云体系结构进行了广泛的评估,并利用10+强和适应性攻击来证明其较低的稳健性。我们的评估表明,在强烈攻击下,PointDP比最新的纯化方法实现了明显更好的鲁棒性。在不久的将来将包括与PointDP合并的随机平滑验证结果的结果。
translated by 谷歌翻译
本文研究了深入的增强学习(DRL),以解决多个无人驾驶汽车(UAV)的任务调度问题。当前的方法通常使用精确的启发式算法来解决该问题,而随着任务量表的增长,计算时间迅速增加,并且启发式规则需要手动设计。作为一种自学方法,DRL可以在没有手工设计的规则的情况下快速获得高质量的解决方案。但是,巨大的决策空间使得在大规模任务的情况下,对DRL模型的培训变得不稳定。在这项工作中,为了解决大规模的问题,我们开发了一个基于鸿沟和征服的框架(DCF),以将原始问题与任务分配和无人机路由计划子问题分配,并在上层和下层解决,分别。基于DCF,提出了双层深钢筋学习方法(DL-DRL),其中高层DRL模型被设计为将任务分配给适当的无人机和下层DRL模型[即广泛使用的注意力模型(AM)]应用于生成可行的无人机路由。由于上层模型确定了低层模型的输入数据分布,并且在培训期间通过低层模型计算其奖励,因此我们制定了交互式训练策略(ITS),其中整个训练过程由PRE组成 - 培训,强化培训和替代培训过程。实验结果表明,我们的DL-DRL胜过基于主流学习和大多数传统方法的主体,并且与最新的启发式方法[即OR-Tools]具有竞争力,尤其是在大规模问题上。通过测试针对较大较大的模型学习的模型,还可以验证DL-DRL的巨大概括性。此外,一项消融研究表明,我们的它可以达到模型性能和训练持续时间之间的妥协。
translated by 谷歌翻译
使用深神经网络(DNN)的轨迹预测是自主驾驶(AD)系统的重要组成部分。但是,这些方法容易受到对抗攻击的影响,从而导致严重的后果,例如碰撞。在这项工作中,我们确定了两种关键要素,以捍卫轨迹预测模型,以防止(1)设计有效的对抗训练方法,以及(2)添加特定领域的数据增强以减轻清洁数据的性能降低。我们证明,与经过干净数据训练的模型相比,我们的方法能够在对抗数据上的性能提高46%,而在干净数据上只有3%的性能退化。此外,与现有的强大方法相比,我们的方法可以在对抗性示例中提高21%的性能,而在清洁数据上可以提高9%。我们的健壮模型与计划者一起评估,以研究其下游影响。我们证明我们的模型可以大大降低严重的事故率(例如碰撞和越野驾驶)。
translated by 谷歌翻译
在过去的几年中,引起了独特的图像字幕(DIC)(DIC) - 生成独特的标题来描述目标图像的独特细节。最近的DIC工作建议通过将目标图像与一组语义相似的参考图像(即基于参考的DIC(REF-DIC))进行比较来生成独特的字幕。它的目的是使生成的字幕可以分开目标图像和参考图像。不幸的是,现有参考作品使用的参考图像易于区分:这些参考图像仅类似于场景级别的目标图像,并且几乎没有常见的对象,因此,即使不考虑该模型,Ref-DIC模型也可以微不足道地生成独特的字幕参考图像。为了确保Ref-DIC模型真正了解目标图像中的唯一对象(或属性),我们首先提出了两个新的Ref-DIC基准。具体而言,我们设计了一个两阶段的匹配机制,该机制严格控制对象 - /属性级别的目标和参考图像之间的相似性(相对于场景级别)。其次,为了产生独特的标题,我们开发了一个强大的基于变压器的ref-DIC基线,称为传播。它不仅从目标图像中提取视觉特征,而且还编码目标和参考图像中对象之间的差异。最后,为了获得更值得信赖的基准测试,我们提出了一个新的评估度量指标,名为Ref-DIC的Discider,评估生成的字幕的准确性和独特性。实验结果表明,我们的传统可以产生独特的标题。此外,它在不同指标上的两个新基准测试中的几个最先进的模型都优于多种最先进的模型。
translated by 谷歌翻译
风险的准确器官(OAR)分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部(H&N)区域的一套超过40桨的桨,然而,由于这项任务的可预测的禁止劳动力成本,大多数机构通过划定较小的桨子和忽视的少数,选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中,我们提出了一种使用深度学习的新颖,自动化和高效的分层OAR分段(SOARS)系统,精确地描绘了一套全面的42 H&N OAR。 SOARS将42桨分层进入锚,中级和小型和硬质子类别,通过神经结构搜索(NAS)原则,专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型,并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估,它始终如一地表现出其他最先进的方法至少3-5%的骰子得分(在其他度量的相对误差减少36%)。更重要的是,广泛的多用户研究明显证明,98%的SOARE预测只需要非常轻微或没有直接临床验收的修订(节省90%的辐射脑神经工作负载),并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H&N癌症放射疗法工作流OAR描绘过程的强烈临床适用性,提高了效率,全面性和质量。
translated by 谷歌翻译
最近,已探索了一系列算法,用于GaN压缩,旨在在部署资源受限的边缘设备上的GAN时减少巨大的计算开销和内存使用。然而,大多数现有的GaN压缩工作仅重点介绍如何压缩发电机,而未能考虑鉴别者。在这项工作中,我们重新审视鉴别者在GaN压缩中的作用和设计一种用于GAN压缩的新型发电机 - 鉴别器协作压缩方案,称为GCC。在GCC中,选择性激活鉴别器根据局部容量约束和全局协调约束自动选择和激活卷积通道,这有助于在对策训练期间与轻质发电机保持纳什平衡,避免模式塌陷。原始发电机和鉴别器也从头开始优化,作为教师模型,逐步优化修剪的发生器和选择性激活鉴别器。一种新的在线协同蒸馏方案旨在充分利用教师发生器和鉴别器的中间特征,以进一步提高轻质发电机的性能。对各种GAN的一代任务的广泛实验证明了GCC的有效性和泛化。其中,GCC有助于降低80%的计算成本,同时在图像转换任务中保持相当的性能。我们的代码和模型可在https://github.com/sjleo/gcc上使用。
translated by 谷歌翻译
Modern CNN-based object detectors rely on bounding box regression and non-maximum suppression to localize objects. While the probabilities for class labels naturally reflect classification confidence, localization confidence is absent. This makes properly localized bounding boxes degenerate during iterative regression or even suppressed during NMS. In the paper we propose IoU-Net learning to predict the IoU between each detected bounding box and the matched ground-truth. The network acquires this confidence of localization, which improves the NMS procedure by preserving accurately localized bounding boxes. Furthermore, an optimization-based bounding box refinement method is proposed, where the predicted IoU is formulated as the objective. Extensive experiments on the MS-COCO dataset show the effectiveness of IoU-Net, as well as its compatibility with and adaptivity to several state-of-the-art object detectors.
translated by 谷歌翻译