捕获和归因于代码变更引起的生产中的性能回归很难;事先预测它们,甚至更努力。关于自动学习预测软件中性能回归的入门,本文介绍了我们在Meta研究和部署基于ML的回归预测管道时获得的经验。在本文中,我们报告了一项比较研究,其复杂性增加了四个ML模型,从(1)代码 - opaque,(2)单词袋,(3)基于转换的变压器到(4)基于定制变压器的模型,创造的超大通信器。我们的调查表明,性能预测问题的固有难度,其特征是良性对回归变化的不平衡。我们的结果还质疑了基于变压器的架构在性能预测中的一般适用性:基于基础的代码伯特方法的性能令人惊讶。我们高度定制的超大号架构最初实现了预测性能,这与简单的单词模型相当,并且仅在下游用例中优于它们。超级人员将其转移到应用程序的这种能力很少有学习示例提供了在Meta实践中部署它的机会:它可以作为预滤波器来解决不太可能引入回归的更改,从而缩小更改空间的变化空间搜索回归高达43%,比随机基线提高45倍。为了进一步洞悉超大号公园,我们通过一系列计算反事实解释进行了探索。这些突出显示了代码的哪些部分更改模型认为重要的,从而验证了学习的黑框模型。
translated by 谷歌翻译
Large language models can perform new tasks in a zero-shot fashion, given natural language prompts that specify the desired behavior. Such prompts are typically hand engineered, but can also be learned with gradient-based methods from labeled data. However, it is underexplored what factors make the prompts effective, especially when the prompts are natural language. In this paper, we investigate common attributes shared by effective prompts. We first propose a human readable prompt tuning method (F LUENT P ROMPT) based on Langevin dynamics that incorporates a fluency constraint to find a diverse distribution of effective and fluent prompts. Our analysis reveals that effective prompts are topically related to the task domain and calibrate the prior probability of label words. Based on these findings, we also propose a method for generating prompts using only unlabeled data, outperforming strong baselines by an average of 7.0% accuracy across three tasks.
translated by 谷歌翻译
A Differentiable Neural Computer (DNC) is a neural network with an external memory which allows for iterative content modification via read, write and delete operations. We show that information theoretic properties of the memory contents play an important role in the performance of such architectures. We introduce a novel concept of memory demon to DNC architectures which modifies the memory contents implicitly via additive input encoding. The goal of the memory demon is to maximize the expected sum of mutual information of the consecutive external memory contents.
translated by 谷歌翻译
我们介绍了NLP社区Metasurvey的结果。从2022年5月到2022年6月,该调查引起了关于有争议的问题的意见,包括该领域的行业影响,对AGI和道德规范的关注。我们的结果将具体数字置于几个争议中:例如,受访者几乎完全将有关人工通用智能的重要性的问题分为一半,语言模型是否理解语言以及语言结构的必要性以及解决NLP问题的必要性。此外,调查提出了元问题,要求受访者预测调查响应的分布。这不仅使我们不仅可以深入了解NLP研究人员所拥有的各种信念,还可以揭示社区预测与现实不符的错误社会学信念。我们在各种问题上发现这种不匹配。除其他结果外,社区大大高估了其对基准的实用性的信念,以及扩展解决现实世界中问题的潜力,同时低估了其对语言结构,归纳偏见和跨学科科学重要性的信念。
translated by 谷歌翻译
金属伪影校正是锥形束计算机断层扫描(CBCT)扫描中的一个具有挑战性的问题。插入解剖结构的金属植入物在重建图像中导致严重的伪影。广泛使用的基于介入的金属伪像减少(MAR)方法需要对投影中的金属痕迹进行分割,这是一项艰巨的任务。一种方法是使用深度学习方法来细分投影中的金属。但是,深度学习方法的成功受到现实培训数据的可用性的限制。由于植入物边界和大量预测,获得可靠的地面真相注释是充满挑战和耗时的。我们建议使用X射线模拟从临床CBCT扫描中生成合成金属分割训练数据集。我们比较具有不同数量的光子的仿真效果,还比较了几种培训策略以增加可用数据。我们将模型在真实临床扫描中的性能与常规阈值MAR和最近的深度学习方法进行比较。我们表明,具有相对较少光子的模拟适用于金属分割任务,并且用全尺寸和裁剪的投影训练深度学习模型共同提高了模型的鲁棒性。我们显示出受严重运动,体素尺寸下采样和落水量金属影响的图像质量的显着改善。我们的方法可以轻松地在现有的基于投影的MAR管道中实现,以提高图像质量。该方法可以为准确分割CBCT投影中的金属提供新的范式。
translated by 谷歌翻译
人们对出于各种目的的人交谈的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层伪造的模型的发展,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更谨慎,法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以将其“木偶”“木偶”“木偶”“木偶”“木偶”相同。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但从另一个来源转移行为信号来将一个人的动作与原始扬声器区分开。我们通过比较综合图像来进行研究:1)源自另一个人说不同话语的人,2)起源于同一人说的话不同,3)源自另一个人说相同的话语。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到​​与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造与正确捕获的视频。
translated by 谷歌翻译
近期量子系统嘈杂。串扰噪声已被确定为超导噪声中间尺度量子(NISQ)设备的主要噪声来源之一。串扰源于附近Qubits上的两Q量门门的并发执行,例如\ texttt {cx}。与单独运行相比,它可能会大大提高门的错误率。可以通过调度或硬件调整来减轻串扰。然而,先前的研究在汇编的后期很晚,通常是在完成硬件映射之后的。它可能会错过优化算法逻辑,路由和串扰的巨大机会。在本文中,我们通过在早期编译阶段同时考虑所有这些因素来推动信封。我们提出了一个称为CQC的串扰感知量子程序汇编框架,该框架可以增强串扰缓解,同时实现令人满意的电路深度。此外,我们确定了从中间表示向电路转换的机会,例如,以特定的特定串扰缓解措施,例如,\ texttt {cx}梯子构造在变异的量子eigensolvers(VQE)中。通过模拟和Real IBM-Q设备进行评估表明,我们的框架可以显着将错误率降低6 $ \ times $,而与最先进的门调度相比,仅$ \ sim $ 60 \%\%的电路深度方法。特别是对于VQE,我们使用IBMQ Guadalupe证明了49 \%的回路深度减少,而对H4分子的先前ART进行了9.6 \%的保真度改善。我们的CQC框架将在GitHub上发布。
translated by 谷歌翻译
本文介绍了用于增加形状项目中老年人参与度的辅助机器人的最终原型。然后,它突出了在Clinica Humana的飞行员的第一阶段中从动手训练中学到的经验教训,可以在西班牙马洛卡(Mallorca)Granada居住。
translated by 谷歌翻译
广泛观察到的神经缩放定律,其中错误是训练集大小,模型大小或两者兼而有之的误差,从而促进了深度学习的实质性改进。但是,仅通过缩放来进行这些改进就需要计算和能源成本相当大。在这里,我们专注于数据集大小的错误缩放,并展示在理论和实践中如何超越幂律的扩展,并将其减少到指数缩放,如果我们可以访问高质量的数据修剪指标,以将顺序排名为应该丢弃哪些培训示例以实现任何修剪的数据集大小。然后,我们通过经验修剪的数据集大小来测试这一新的指数缩放预测,并且实际上观察到了在CIFAR-10,SVHN和Imagenet训练的重新NET上的功率定律缩放性能。鉴于找到高质量的修剪指标的重要性,我们对ImageNet上十个不同的数据修剪指标进行了第一个大规模的基准测试研究。我们发现大多数现有的高性能指标尺寸较差,而对于ImageNet来说,最佳尺度是计算密集型的,并且需要为每个图像标签。因此,我们开发了一种新的简单,便宜和可扩展的自我监督的修剪指标,该指标与最佳监督指标相当。总体而言,我们的工作表明,发现良好的数据指标可能会为可行的途径提供可行的途径,从而大大改善神经缩放法律,从而降低现代深度学习的资源成本。
translated by 谷歌翻译
贝叶斯改进的姓氏地理编码(BISG)是在不包含它的选民注册文件中代表种族/民族的最流行方法。本文使用来自加利福尼亚州,佛罗里达州,北卡罗来纳州和佐治亚州的自我报告的种族/民族的选民档案,对一系列未经测试的机器学习替代方案进行了基准测试。该分析得出三个关键发现。首先,当给出完全相同的输入时,BISG和机器学习在估计种族/种族组成方面的表现相似。其次,机器学习在种族/种族分类方面的表现优于BISG。第三,所有方法的性能在各州之间有很大的变化。这些结果表明,预训练的机器学习模型比BISG更可取,以进行单个分类。此外,在区域层面和各州之间的混合结果强调了研究人员在凭经验中验证其感兴趣人群中所选择的种族/种族代理的需求。
translated by 谷歌翻译