Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们介绍了CRASS(反事实推理评估)数据集,并利用有问题的反事实条件作为一种新颖而有力的工具来评估大型语言模型。我们介绍数据集设计和基准测试,该设计支持对人群验证的人类基线进行评分。我们针对我们的基准测试了六个最先进的模型。我们的结果表明,它对这些模型构成了有效的挑战,并为它们的改进空间打开了可观的空间。
translated by 谷歌翻译
We consider the straggler problem in decentralized learning over a logical ring while preserving user data privacy. Especially, we extend the recently proposed framework of differential privacy (DP) amplification by decentralization by Cyffers and Bellet to include overall training latency--comprising both computation and communication latency. Analytical results on both the convergence speed and the DP level are derived for both a skipping scheme (which ignores the stragglers after a timeout) and a baseline scheme that waits for each node to finish before the training continues. A trade-off between overall training latency, accuracy, and privacy, parameterized by the timeout of the skipping scheme, is identified and empirically validated for logistic regression on a real-world dataset.
translated by 谷歌翻译
This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
translated by 谷歌翻译
在同时定位和映射(SLAM)中,环路闭合检测(LCD)对于在识别先前访问的地方时最小化漂移至关重要。视觉袋(VBOW)一直是许多最先进的大满贯系统的LCD算法。它使用一组视觉功能来提供健壮的位置识别,但无法感知特征点之间的语义或空间关系。先前的工作主要集中在解决这些问题上,通过将VBOW与现场对象的语义和空间信息相结合。但是,他们无法利用局部视觉特征的空间信息,并且缺乏统一语义对象和视觉特征的结构,因此限制了两个组件之间的共生。本文提出了SymbiolCD2,该symbiolcd2创建了一个统一的图形结构,以在共生的方式集成语义对象和视觉特征。我们的新型基于图的LCD系统通过应用具有时间限制的Weisfeiler-Lehman图内核来利用统一的图结构,以稳健地预测循环闭合候选者。对所提出的系统的评估表明,具有结合语义对象和视觉特征的统一图结构提高了LCD预测精度,这说明了所提出的图形结构在这两个互补组件之间提供了强烈的共生。它还优于其他机器学习算法 - 例如SVM,决策树,随机森林,神经网络和基于GNN的图形匹配网络。此外,它在比最先进的SLAM系统的早期检测循环闭合候选方面表现出良好的性能,这表明统一图结构的扩展语义和空间意识会显着影响LCD的性能。
translated by 谷歌翻译
在本文中,我们建议采用MDE范式来开发机器学习(ML)的软件系统,重点关注物联网(IoT)域。我们说明了如何将两种最先进的开源建模工具,即蒙蒂安娜和ML-Quadrat用于此目的,如案例研究所证明的那样。案例研究说明了使用ML使用MNIST参考数据集对手写数字的自动图像识别的ML,特别是深人造神经网络(ANN),并将机器学习组件集成到物联网系统中。随后,我们对两个框架进行了功能比较,设置了一个分析基础,以包括广泛的设计考虑因素,例如问题域,ML集成到较大系统中的方法以及支持的ML方法以及主题最近对ML社区的强烈兴趣,例如Automl和MLOP。因此,本文的重点是阐明ML域中MDE方法的潜力。这支持ML工程师开发(ML/软件)模型而不是实施代码,并通过启用ML功能作为IoT或IoT的组件的现成集成来实现设计的可重复性和模块化。网络物理系统。
translated by 谷歌翻译
变异下限(又称Elbo或自由能)是许多学习算法的核心目标,包括用于深度无监督学习的算法。学习算法会更改模型参数,使变量下限增加,直到参数接近学习动力学的固定点。在这种纯粹的理论贡献中,我们表明(对于一类非常大的生成模型),变异下限在所有固定的学习点等于等于熵的总和。对于具有一组潜伏期和一组观察到的变量的模型,总和由三个熵组成:(a)变异分布的(平均)熵,(b)模型先前分布的负熵,以及(c) (预期)可观察到的分布的负熵。所获得的结果适用于现实条件,包括:数据点的有限数量,在任何固定点(包括鞍点)以及(行为良好的)变异分布的任何家族。我们显示的生成模型类别的熵和均包含许多(也是大多数)标准生成模型(包括深模型)。作为具体示例,我们讨论了概率PCA和Sigmoid信念网络。我们用来显示熵和表现出平等的先决条件相对温和。具体而言,给定生成模型的分布必须是指数族的(具有恒定的基础度量),并且模型必须满足参数化标准(通常是满足的)。在固定点(在规定的条件下)证明ELBO到熵和熵和的平等是这项工作的主要贡献。
translated by 谷歌翻译
可解释的AI(XAI)的目的是设计方法,以提供有关黑盒模型(例如深神经网络)的推理过程的见解,以便向人类解释它们。社会科学研究指出,这种解释应该是对话的,类似于人类对人类的解释。在这项工作中,我们使用包含自然语言理解和发电组成部分的代理的标准设计来展示如何将XAI纳入对话代理。我们以XAI问题库为基础,我们通过质量控制的释义扩展,以了解用户的信息需求。我们进一步系统地调查了文献,以提供适当的解释方法,这些方法提供了以回答这些问题的信息,并提供了全面的建议列表。我们的工作是使用解释代理进行有关机器学习模型的真正自然对话的第一步。 XAI问题的全面列表和相应的解释方法可能会支持其他研究人员提供必要的信息以满足用户的需求。
translated by 谷歌翻译
多目标优化中的当前最新技术假设具有给定的效用函数,可以交互性地学习效用函数或试图确定完整的帕累托前部,需要对首选结果进行后启发。但是,现实世界中的问题的结果通常是基于隐式和明确的专家知识,因此很难定义效用功能,而交互式学习或启发后需要重复且昂贵的专家参与。为了减轻这种情况,我们使用偏好学习的专家知识来离线学习实用功能。与其他作品相比,我们不仅使用(成对)结果偏好,而且还使用有关实用程序功能空间的粗略信息。这使我们能够改善效用函数估计,尤其是在使用很少的结果时。此外,我们对实用程序功能学习任务中发生的不确定性进行建模,并通过整个优化链传播它们。我们学习公用事业功能的方法消除了重复专家参与的需求,同时仍导致高质量的结果。我们显示了在4个域中提出的方法的样本效率和质量提高,尤其是在替代效用函数无法精确捕获真正的专家效用函数的情况下。我们还表明,要获得良好的结果,重要的是要考虑诱发的不确定性并分析偏置样本的效果,这在现实世界中是一个常见的问题。
translated by 谷歌翻译