捕获和归因于代码变更引起的生产中的性能回归很难;事先预测它们,甚至更努力。关于自动学习预测软件中性能回归的入门,本文介绍了我们在Meta研究和部署基于ML的回归预测管道时获得的经验。在本文中,我们报告了一项比较研究,其复杂性增加了四个ML模型,从(1)代码 - opaque,(2)单词袋,(3)基于转换的变压器到(4)基于定制变压器的模型,创造的超大通信器。我们的调查表明,性能预测问题的固有难度,其特征是良性对回归变化的不平衡。我们的结果还质疑了基于变压器的架构在性能预测中的一般适用性:基于基础的代码伯特方法的性能令人惊讶。我们高度定制的超大号架构最初实现了预测性能,这与简单的单词模型相当,并且仅在下游用例中优于它们。超级人员将其转移到应用程序的这种能力很少有学习示例提供了在Meta实践中部署它的机会:它可以作为预滤波器来解决不太可能引入回归的更改,从而缩小更改空间的变化空间搜索回归高达43%,比随机基线提高45倍。为了进一步洞悉超大号公园,我们通过一系列计算反事实解释进行了探索。这些突出显示了代码的哪些部分更改模型认为重要的,从而验证了学习的黑框模型。
translated by 谷歌翻译
There are multiple scales of abstraction from which we can describe the same image, depending on whether we are focusing on fine-grained details or a more global attribute of the image. In brain mapping, learning to automatically parse images to build representations of both small-scale features (e.g., the presence of cells or blood vessels) and global properties of an image (e.g., which brain region the image comes from) is a crucial and open challenge. However, most existing datasets and benchmarks for neuroanatomy consider only a single downstream task at a time. To bridge this gap, we introduce a new dataset, annotations, and multiple downstream tasks that provide diverse ways to readout information about brain structure and architecture from the same image. Our multi-task neuroimaging benchmark (MTNeuro) is built on volumetric, micrometer-resolution X-ray microtomography images spanning a large thalamocortical section of mouse brain, encompassing multiple cortical and subcortical regions. We generated a number of different prediction challenges and evaluated several supervised and self-supervised models for brain-region prediction and pixel-level semantic segmentation of microstructures. Our experiments not only highlight the rich heterogeneity of this dataset, but also provide insights into how self-supervised approaches can be used to learn representations that capture multiple attributes of a single image and perform well on a variety of downstream tasks. Datasets, code, and pre-trained baseline models are provided at: https://mtneuro.github.io/ .
translated by 谷歌翻译
Diffusion models have quickly become the go-to paradigm for generative modelling of perceptual signals (such as images and sound) through iterative refinement. Their success hinges on the fact that the underlying physical phenomena are continuous. For inherently discrete and categorical data such as language, various diffusion-inspired alternatives have been proposed. However, the continuous nature of diffusion models conveys many benefits, and in this work we endeavour to preserve it. We propose CDCD, a framework for modelling categorical data with diffusion models that are continuous both in time and input space. We demonstrate its efficacy on several language modelling tasks.
translated by 谷歌翻译
开发有效的自动分类器将真实来源与工件分开,对于宽场光学调查的瞬时随访至关重要。在图像差异过程之后,从减法伪像的瞬态检测鉴定是此类分类器的关键步骤,称为真实 - 博格斯分类问题。我们将自我监督的机器学习模型,深入的自组织地图(DESOM)应用于这个“真实的模拟”分类问题。 DESOM结合了自动编码器和一个自组织图以执行聚类,以根据其维度降低的表示形式来区分真实和虚假的检测。我们使用32x32归一化检测缩略图作为底部的输入。我们展示了不同的模型训练方法,并发现我们的最佳DESOM分类器显示出6.6%的检测率,假阳性率为1.5%。 Desom提供了一种更细微的方法来微调决策边界,以确定与其他类型的分类器(例如在神经网络或决策树上构建的)结合使用时可能进行的实际检测。我们还讨论了DESOM及其局限性的其他潜在用法。
translated by 谷歌翻译
目的:本研究评估了市售可解释的AI算法在增强临床医生在胸部X射线(CXR)上鉴定肺癌的能力的影响。设计:这项回顾性研究评估了11位临床医生在胸部X光片中检测肺癌的表现,并在有和没有市售的AI算法的帮助下(红点,观察到),预测CXRS可疑的肺癌。根据临床确定的诊断评估了临床医生的表现。设置:该研究分析了NHS医院的匿名患者数据;该数据集由成年患者(18岁及以上)的400张胸部X光片组成,他们在2020年进行了CXR,并提供相应的临床文本报告。参与者:由11位临床医生(放射科医生,放射科医生受训者和报告射线照相师)组成的读者小组参加。主要结果指标:临床医生在CXR上检测肺癌的总体准确性,敏感性,特异性和精度,有或没有AI输入。还评估了有或没有AI输入的临床医生与绩效标准偏差之间的协议率。结果:临床医生对AI算法的使用导致肺部肿瘤检测的总体性能提高,从而达到了在CXR上鉴定出的肺癌的总体增长17.4% ,分别增加了13%和13%的阶段1和2期肺癌的检测,以及临床医生表现的标准化。结论:这项研究在AI算法的临床实用性方面表现出了巨大的希望,可以通过整体改善读者表现来改善早期肺癌诊断和促进健康平等,而不会影响下游成像资源。
translated by 谷歌翻译
我们介绍了一种新的分布式策略梯度算法,并表明它在优化机器翻译模型时,在培训稳定性和概括性绩效方面都优于现有的奖励感知培训程序,例如增强,最低风险培训(MRT)和近端政策优化(PPO)。我们称之为MAD的算法(由于在重要性加权计算中使用平均绝对偏差),它分布式数据生成器在Worker节点上每个源句子对多个候选者进行采样,而中心学习者则更新了策略。 MAD取决于两个降低差异策略:(1)一种有条件的奖励归一化方法,可确保每个源句子都具有正面和负面奖励翻译示例,以及(2)一种新的强大重要性加权方案,充当条件性熵正常化器。在各种翻译任务上进行的实验表明,使用MAD算法在使用贪婪的解码和梁搜索时,使用MAD算法学到的策略表现良好,并且学到的政策对训练过程中使用的特定奖励很敏感。
translated by 谷歌翻译
从简短的问题实例推断出较长的实例的能力是推理任务中分布概括的一种重要形式,并且在较长的问题实例很少见的数据集中学习时至关重要。这些包括定理证明,解决定量数学问题以及阅读/总结小说。在本文中,我们进行了仔细的经验研究,以探讨基于变压器的语言模型的长度概括能力。我们首先确定长度泛化任务上的天真固定变压器显示出与模型量表无关的显着泛化缺陷。然后,我们表明,将预处理的大语言模型与SCRATCHPAD提示(要求模型在产生答案之前输出解决方案步骤)相结合,从而巨大的长度概括改进。我们对每种学习方式进行了仔细的失败分析,并确定了常见的错误来源,这些错误来源突出了将语言模型的机会与更长的问题概括的能力。
translated by 谷歌翻译
视觉模型可以评估图像中的视觉上下文并生成描述性文本。尽管生成的文本可能是准确且句法正确的,但通常过于笼统。为了解决这个问题,最近的工作使用光学特征识别来补充视觉信息,并从图像中提取的文本进行补充。在这项工作中,我们认为,视觉模型可以受益于可以从图像中提取但不使用当前模型使用的其他信息。我们修改了以前的多模式框架,以接受来自任意数量的辅助分类器的相关信息。特别是,我们将重点放在人的名字作为附加令牌上,并创建一个新颖的图像捕获数据集,以促进用人名称的字幕。标题(PAC)中的数据集,政客和运动员包括背景下知名人士的字幕图像。通过使用此数据集对预处理的模型进行微调,我们演示了一个模型,该模型可以自然地将面部识别令牌纳入生成的文本中,通过培训有限的数据。对于PAC数据集,我们提供有关集合和基线基准分数的讨论。
translated by 谷歌翻译
语言模型在需要自然语言理解的各种任务上取得了非凡的表现。然而,最先进的模型通常在需要定量推理的任务上挣扎,例如在大学一级解决数学,科学和工程问题。为了帮助缩小这一差距,我们介绍了Minerva,Minerva是一种在一般自然语言数据上鉴定的大型语言模型,并进一步培训了技术内容。该模型在不使用外部工具的情况下实现了技术基准测试的最新性能。我们还评估了我们在需要定量推理的物理学,生物学,化学,经济学和其他科学方面的200多个本科生问题上评估我们的模型,并发现该模型可以正确回答其中几乎三分之一。
translated by 谷歌翻译
将基于代理的模型(ABM)校准到数据是确保模型实现其所需目的的最基本要求之一。近年来,基于模拟的推理方法已成为强大的工具,可以在模型可能性函数棘手时执行此任务,就像ABMS一样。在ABMS的一些现实世界中,观察到的数据和ABM输出都由代理的状态及其相互作用随着时间的推移而组成。在这种情况下,一方面,渴望充分利用这种粒状数据的丰富信息内容与减少数据维度的需求以防止与高维学习任务相关的困难之间存在紧张关系另一个。一个可能的分辨率是通过使用摘要统计数据来构建较低维度的时间序列,这些汇总统计数据描述了每个时间点的宏观染色。但是,摘要统计数据的糟糕选择可能导致原始数据集中的信息丢失不可接受,从而大大降低了所得校准的质量。在这项工作中,我们建议使用时间图神经网络直接学习与粒状微型数据相关的参数后期。我们将证明,这种方法为贝叶斯推断提供了高度引人注目的感应偏见,该方法使用RAW ABM微杆菌作为输出。
translated by 谷歌翻译