会话问题生成(CQG)是机器通过对话等人类(例如交互式阅读理解)的重要任务。与传统的单转交问题(SQG)相比,CQG更具挑战性的意义,即生成的问题不仅需要有意义,而且要与发生的对话历史保持一致。虽然先前的研究主要集中于如何建模对话的流量和对齐,但迄今为止,尚无对模型必需部分和历史的部分进行全面的研究。我们认为,缩短上下文和历史是至关重要的,因为它可以帮助该模型对对话的一致性进行更多优化。为此,我们提出了一个两阶段CQG框架COHS-CQG,该框架采用COHS模块来缩短输入的上下文和历史记录。特别是,COHS选择连续的句子,并根据其相关性得分通过顶级P策略转弯。我们的模型在答案感和答案环境中都可以在COQA上实现最先进的表演。
translated by 谷歌翻译
While the problem of hallucinations in neural machine translation has long been recognized, so far the progress on its alleviation is very little. Indeed, recently it turned out that without artificially encouraging models to hallucinate, previously existing methods fall short and even the standard sequence log-probability is more informative. It means that characteristics internal to the model can give much more information than we expect, and before using external models and measures, we first need to ask: how far can we go if we use nothing but the translation model itself ? We propose to use a method that evaluates the percentage of the source contribution to a generated translation. Intuitively, hallucinations are translations "detached" from the source, hence they can be identified by low source contribution. This method improves detection accuracy for the most severe hallucinations by a factor of 2 and is able to alleviate hallucinations at test time on par with the previous best approach that relies on external models. Next, if we move away from internal model characteristics and allow external tools, we show that using sentence similarity from cross-lingual embeddings further improves these results.
translated by 谷歌翻译
我们束缚了使用梯度流训练的深度线性网络的多余风险。在先前用于建立最小$ \ ell_2 $ -norm interpolant的风险范围的设置中,我们表明随机初始化的深线性网络可以紧密近似甚至匹配已知的范围,即最小$ \ ell_2 $ - norm interpolant。我们的分析还表明,插值深线性模型具有与最小$ \ ell_2 $ -Norm解决方案完全相同的条件差异。由于噪声仅通过条件差异影响多余的风险,因此这意味着深度并不能提高算法“隐藏噪声”的能力。我们的模拟验证了我们边界的各个方面反映了简单数据分布的典型行为。我们还发现,在具有Relu网络的模拟中也可以看到类似的现象,尽管情况更加细微。
translated by 谷歌翻译
我们考虑由一般随机序列驱动的随机梯度下降(SGD)算法,包括I.I.D噪声和随机行走,在任意图上等等;并以渐近意义进行分析。具体而言,我们采用了“效率排序”的概念,这是一种分析的工具,用于比较马尔可夫链蒙特卡洛(MCMC)采样器的性能,以sgd算法的形式以与量表矩阵相关的loewner订购形式长期。使用此顺序,我们表明对MCMC采样更有效的输入序列也导致限制中SGD算法的误差的较小协方差。这也表明,当受到更有效的链驱动时,任意加权的SGD迭代的MSE迭代会变小。我们的发现在分散的优化和群学习等应用程序中特别感兴趣,其中SGD是在基础通信图上以随机步行方式实施的,以解决成本问题和/或数据隐私。我们证明了某些非马克维亚过程如何在基于典型的混合时间的非轴突界限上是棘手的,在SGD的效率订购意义上,可以超越其马尔可夫对应物。我们通过将其应用于梯度下降,并以洗牌和小批量梯度下降将其应用于梯度下降,从而显示了我们的方法的实用性,从而在统一框架下重申了现有文献的关键结果。从经验上讲,我们还观察到SGD的变体(例如加速SGD和Adam)的效率排序,开辟了将我们的效率订购概念扩展到更广泛的随机优化算法的可能性。
translated by 谷歌翻译
今天,参加在线论坛上的讨论非常普遍,这些讨论已经开始对在线用户的整体意见产生强大的影响。 Naturally, twisting the flow of the argument can have a strong impact on the minds of naive users, which in the long run might have socio-political ramifications, for example, winning an election or spreading targeted misinformation.因此,这些平台可能非常容易受到恶意玩家的影响,他们可能会单独采取行动,也可能是繁殖谬误的争论,并动机促进公众舆论。 AD HOMINEM论点是此类谬论中最有效的形式之一。尽管是一个简单的谬论,但它足够有效,可以在离线世界中进行公开辩论,并且可以用作阻止诽谤反对派声音的先驱。在这项工作中,我们迈出了第一步,以阐明野外Ad Hominem谬论的使用。首先,我们建立了一个具有很高准确性的强大AD HOMINEM探测器(F1超过83%,对先前的工作显示出显着改善),即使对于注释的实例构成很小一部分的数据集也是如此。然后,我们在从在线辩论论坛中收集的265k参数(创建者)中使用了我们的检测器。我们的众包调查验证了我们对创建ebate数据的野外预测(94%与手动注释相匹配)。我们的分析表明,令人惊讶的31.23%的创建ebate内容包含AD HOMINEM谬论,并且一群高度活跃的用户的同类发表了更大的AD AD本人,以抑制相反的观点。然后,我们的时间分析表明,自2016年美国总统大选以来,AD HOMINEM论点的使用量显着增加,不仅是政治等主题,而且对于科学和法律。最后,我们讨论了我们的工作的重要意义,以检测和防御AD HOMINEM谬论。
translated by 谷歌翻译
这项研究介绍了我们对越南语言和语音处理任务(VLSP)挑战2021的文本处理任务的医疗保健领域的自动越南图像字幕的方法作为编码器的体系结构和长期的短期内存(LSTM)作为解码器生成句子。这些模型在不同的数据集中表现出色。我们提出的模型还具有编码器和一个解码器,但是我们在编码器中使用了SWIN变压器,LSTM与解码器中的注意模块结合在一起。该研究介绍了我们在比赛期间使用的培训实验和技术。我们的模型在vietcap4h数据集上达到了0.293的BLEU4分数,并且该分数在私人排行榜上排名3 $^{rd} $。我们的代码可以在\ url {https://git.io/jddjm}上找到。
translated by 谷歌翻译
混合整数凸面和非线性程序MICP和MINLP具有表现力,但需要长时间解决时间。结合了数据驱动方法的求解器启发式方法的最新工作表明,有可能克服此问题,从而可以在更大规模的实际问题上进行应用。为了通过数据驱动的方法在线求解混合企业双线性程序,存在几种配方,包括具有互补约束(MPCC),混合智能编程(MIP)的数学编程。在这项工作中,我们将这些数据驱动方案的性能基于具有离散模式开关和避免碰撞限制的书架组织问题的性能。将成功率,最佳成本和解决时间与非DATA驱动方法进行比较。我们提出的方法被证明是用于书架问题的机器人臂的高级计划者。
translated by 谷歌翻译
A deep learning strategy is developed for fast and accurate gas property measurements using flame emission spectroscopy (FES). Particularly, the short-gated fast FES is essential to resolve fast-evolving combustion behaviors. However, as the exposure time for capturing the flame emission spectrum gets shorter, the signal-to-noise ratio (SNR) decreases, and characteristic spectral features indicating the gas properties become relatively weaker. Then, the property estimation based on the short-gated spectrum is difficult and inaccurate. Denoising convolutional neural networks (CNN) can enhance the SNR of the short-gated spectrum. A new CNN architecture including a reversible down- and up-sampling (DU) operator and a loss function based on proper orthogonal decomposition (POD) coefficients is proposed. For training and testing the CNN, flame chemiluminescence spectra were captured from a stable methane-air flat flame using a portable spectrometer (spectral range: 250 - 850 nm, resolution: 0.5 nm) with varied equivalence ratio (0.8 - 1.2), pressure (1 - 10 bar), and exposure time (0.05, 0.2, 0.4, and 2 s). The long exposure (2 s) spectra were used as the ground truth when training the denoising CNN. A kriging model with POD is trained by the long-gated spectra for calibration, and then the prediction of the gas properties taking the denoised short-gated spectrum as the input: The property prediction errors of pressure and equivalence ratio were remarkably lowered in spite of the low SNR attendant with reduced exposure.
translated by 谷歌翻译
基于人工神经网络(基于ANN)的损耗压缩机最近在多个来源获得了惊人的结果。它们的成功可能归因于在高维环境空间中识别低维歧管的结构的能力。实际上,先前的工作表明,基于ANN的压缩机可以实现某些此类来源的最佳熵距离曲线。相比之下,我们确定了具有圆形结构的两个低维歧管的最佳熵差异权,并表明基于最新的ANN压缩机无法最佳地压缩它们。
translated by 谷歌翻译
变异自动编码器(VAE)学习脱离表示表示的能力使它们在实际应用中很受欢迎。但是,他们的行为尚未完全理解。例如,何时提供分离的表示形式或后倒塌的问题仍然是积极研究的领域。尽管如此,尚无对VAE学到的表示形式进行层次比较,这将进一步了解这些模型。在本文中,我们使用代表性相似性技术研究VAE的内部行为。具体而言,使用CKA和Procrustes相似性,我们发现编码器的表示早在解码器之前就学会了,并且此行为独立于超参数,学习目标和数据集。此外,在超参数和学习目标之间,编码器的表示形式与均值和方差相似。
translated by 谷歌翻译