Learning policies from fixed offline datasets is a key challenge to scale up reinforcement learning (RL) algorithms towards practical applications. This is often because off-policy RL algorithms suffer from distributional shift, due to mismatch between dataset and the target policy, leading to high variance and over-estimation of value functions. In this work, we propose variance regularization for offline RL algorithms, using stationary distribution corrections. We show that by using Fenchel duality, we can avoid double sampling issues for computing the gradient of the variance regularizer. The proposed algorithm for offline variance regularization (OVAR) can be used to augment any existing offline policy optimization algorithms. We show that the regularizer leads to a lower bound to the offline policy optimization objective, which can help avoid over-estimation errors, and explains the benefits of our approach across a range of continuous control domains when compared to existing state-of-the-art algorithms.
translated by 谷歌翻译
Late-life depression (LLD) is a highly prevalent mood disorder occurring in older adults and is frequently accompanied by cognitive impairment (CI). Studies have shown that LLD may increase the risk of Alzheimer's disease (AD). However, the heterogeneity of presentation of geriatric depression suggests that multiple biological mechanisms may underlie it. Current biological research on LLD progression incorporates machine learning that combines neuroimaging data with clinical observations. There are few studies on incident cognitive diagnostic outcomes in LLD based on structural MRI (sMRI). In this paper, we describe the development of a hybrid representation learning (HRL) framework for predicting cognitive diagnosis over 5 years based on T1-weighted sMRI data. Specifically, we first extract prediction-oriented MRI features via a deep neural network, and then integrate them with handcrafted MRI features via a Transformer encoder for cognitive diagnosis prediction. Two tasks are investigated in this work, including (1) identifying cognitively normal subjects with LLD and never-depressed older healthy subjects, and (2) identifying LLD subjects who developed CI (or even AD) and those who stayed cognitively normal over five years. To the best of our knowledge, this is among the first attempts to study the complex heterogeneous progression of LLD based on task-oriented and handcrafted MRI features. We validate the proposed HRL on 294 subjects with T1-weighted MRIs from two clinically harmonized studies. Experimental results suggest that the HRL outperforms several classical machine learning and state-of-the-art deep learning methods in LLD identification and prediction tasks.
translated by 谷歌翻译
Recently, convolutional neural networks (CNNs) and attention mechanisms have been widely used in image denoising and achieved satisfactory performance. However, the previous works mostly use a single head to receive the noisy image, limiting the richness of extracted features. Therefore, a novel CNN with multiple heads (MH) named MHCNN is proposed in this paper, whose heads will receive the input images rotated by different rotation angles. MH makes MHCNN simultaneously utilize features of rotated images to remove noise. To integrate these features effectively, we present a novel multi-path attention mechanism (MPA). Unlike previous attention mechanisms that handle pixel-level, channel-level, or patch-level features, MPA focuses on features at the image level. Experiments show MHCNN surpasses other state-of-the-art CNN models on additive white Gaussian noise (AWGN) denoising and real-world image denoising. Its peak signal-to-noise ratio (PSNR) results are higher than other networks, such as BRDNet, RIDNet, PAN-Net, and CSANN. The code is accessible at https://github.com/JiaHongZ/MHCNN.
translated by 谷歌翻译
从文本中获取结构事件知识的事件提取(EE)可以分为两个子任务:事件类型分类和元素提取(即在不同的角色模式下识别触发器和参数)。由于不同的事件类型始终拥有独特的提取模式(即角色模式),因此EE先前的工作通常遵循孤立的学习范式,对不同的事件类型独立执行元素提取。它忽略了事件类型和参数角色之间有意义的关联,导致频繁类型/角色的性能相对较差。本文提出了一个新型的EE任务神经关联框架。给定文档,它首先通过构造文档级别的图形来执行类型分类,以关联不同类型的句子节点,并采用图形注意网络来学习句子嵌入。然后,通过构建一个通用参数角色模式来实现元素提取,并具有参数遗传机制,以增强提取元素的角色偏好。因此,我们的模型考虑了EE期间的类型和角色关联,从而使它们之间的隐式信息共享。实验结果表明,我们的方法始终优于两个子任务中大多数最新的EE方法。特别是,对于具有较少培训数据的类型/角色,该性能优于现有方法。
translated by 谷歌翻译
主题标签的生成旨在从微博帖子中生成简短和非正式的局部标签,在该帖子中,令牌或短语形成主题标签。这些令牌或短语可能源自原始文本中的主要碎片文本片段(例如,段),并分为不同的段。但是,传统的序列到序列生成方法很难从不同的文本粒度中滤除次级信息,并且不擅长选择关键令牌。因此,它们在产生更多凝结的主题标签时是次优的。在这项工作中,我们提出了一个基于变压器的生成模型,并为原始编码和解码阶段添加了一个段选择过程。段选择阶段基于一种新型的细分选择机制(SSM),以对全球文本,本地段和令牌上的不同文本粒度进行建模,从而有助于产生冷凝标签。具体而言,它首先关注主要的语义段,然后通过选择关键令牌将不连续的段从源文本转换为一系列主题标签。对两个数据集的广泛评估揭示了我们的方法的优势,并对提取和发电基线进行了重大改进。代码和数据集可在https://github.com/opensum/hashtaggen上找到。
translated by 谷歌翻译
许多支付平台持有大规模的营销活动,为鼓励用户通过他们的申请进行奖励。为了最大限度地提高投资回报,在两阶段程序中通常会解决激励拨款。在训练响应估计模型以估计用户的移动支付概率(MPP)之后,应用线性编程过程来获得最佳激励分配。然而,由先前偏置分配策略生成的训练集中的大量偏置数据导致偏置估计。此偏差劣化响应模型的性能并误导线性编程过程,显着降低了所产生的分配策略的性能。为了克服这种障碍,我们提出了偏置校正对抗性网络。我们的方法利用了在全随机分配策略下获得的一小集非偏见数据来培训一个无偏的模型,然后使用它来减少对抗性学习的偏差。离线和在线实验结果表明,我们的方法优于最先进的方法,并显着提高了现实世界营销活动中所产生的分配政策的绩效。
translated by 谷歌翻译
现有的转移攻击方法通常假定攻击者知道黑盒受害者模型的训练集(例如标签集,输入大小),这通常是不现实的,因为在某些情况下,攻击者不知道此信息。在本文中,我们定义了一个通用的可转移攻击(GTA)问题,在该问题中,攻击者不知道此信息,并获得攻击可能来自未知数据集的任何随机遇到的图像。为了解决GTA问题,我们提出了一种新颖的图像分类橡皮擦(ICE),该图像分类(ICE)训练特定的攻击者从任意数据集中擦除任何图像的分类信息。几个数据集的实验表明,ICE在GTA上的现有转移攻击极大地胜过了转移攻击,并表明ICE使用类似纹理的噪声来扰动不同数据集的不同图像。此外,快速傅立叶变换分析表明,每个冰噪声中的主要成分是R,G和B图像通道的三个正弦波。受这个有趣的发现的启发,我们设计了一种新颖的正弦攻击方法(SA),以优化三个正弦波。实验表明,SA的性能与冰相当,表明这三个正弦波是有效的,足以打破GTA设置下的DNN。
translated by 谷歌翻译
尽管在一般强化学习(RL)中建立了良好的建立,但很少在受约束的RL(CRL)中探索基于价值的方法,因为它们无法找到可以在多个动作中随机进行随机的策略的能力。为了将基于价值的方法应用于CRL,最新的游戏理论方法采用了混合策略,该策略将一组精心生成的策略之间随机进行随机,以收敛到所需的约束可满足的策略。但是,这些方法需要存储大量的政策,这不是政策效率的,并且可能会在约束深度RL中产生过高的记忆成本。为了解决这个问题,我们提出了一种替代方法。我们的方法首先将CRL重新制定为等效距离优化问题。使用专门设计的线性优化Oracle,我们得出了一个元叠层,该元值使用任何现成的RL算法和任何条件梯度(CG)型算法作为子例程来求解它。然后,我们提出了CG型算法的新变体,该变体概括了最小范数(MNP)方法。所提出的方法与现有游戏理论方法的收敛速率相匹配,并实现了最差的最佳政策效率。导航任务上的实验表明,我们的方法将记忆成本降低了一个数量级,同时达到了更好的性能,并证明了其有效性和效率。
translated by 谷歌翻译
我们开发了一个新颖的框架,将稀疏集团拉索的正规化者添加到深度学习中的自适应优化者家族中,例如动量,亚当,亚当,阿姆斯格拉德,阿德哈西亚人,并创建了新的优化者,这些优化者被称为群体动量,命名因此,Adagrad小组,亚当集团,Amsgrad集团和Adahessian集团等。我们基于原始偶的方法在随机凸设置中建立理论上证明的收敛保证。我们评估了新优化器对具有最先进的深度学习模型的三个大型现实广告单击数据集的正则效应。实验结果表明,与使用幅度修剪方法的后处理过程相比,模型的性能可以在相同的稀疏度水平上显着提高。此外,与没有幅度修剪的情况相比,我们的方法可以实现极高的稀疏性,并具有明显的更好或高度竞争性的性能。
translated by 谷歌翻译
汤普森采样(TS)是解决上下文多武装强盗问题最有效的算法之一。在本文中,我们提出了一种新的算法,称为神经汤普森采样,这适应了深度神经网络,用于勘探和剥削。在我们的算法的核心是一种新的奖励的后分布,其平均值是神经网络近似器,并且其方差建立在相应神经网络的神经切线特征上。我们证明,如果底层奖励函数是有界的,则可以保证所提出的算法来实现$ \ mathcal {o}(t ^ {1/2})$的累积遗憾,它与其他上下文强盗算法的遗憾匹配总轮数量$ t $。各种数据集中其他基准强盗算法的实验比较证实了我们的理论。
translated by 谷歌翻译