Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
在本文中,我们介绍了四种突出的恶意软件检测工具的科学评估,以帮助组织提出两个主要问题:基于ML的工具在多大程度上对以前和从未见过的文件进行了准确的分类?是否值得购买网络级恶意软件检测器?为了识别弱点,我们针对各种文件类型的总计3,536个文件(2,554或72 \%恶意,982或28 \%良性)测试了每个工具,包括数百个恶意零日,polyglots和apt-style-style style文件,在多个协议上交付。我们介绍了有关检测时间和准确性的统计结果,请考虑互补分析(一起使用多个工具),并提供了近期成本效益评估程序的两种新颖应用。尽管基于ML的工具在检测零日文件和可执行文件方面更有效,但基于签名的工具仍然是总体上更好的选择。两种基于网络的工具都与任何一种主机工具配对时都可以进行大量(模拟)节省,但两者在HTTP或SMTP以外的协议上都显示出较差的检测率。我们的结果表明,所有四个工具都具有几乎完美的精度但令人震惊的召回率,尤其是在可执行文件和Office文件以外的文件类型上 - 未检测到37%的恶意软件,包括所有Polyglot文件。给出了研究人员的优先事项,并给出了最终用户的外卖。
translated by 谷歌翻译
This article presents a survey of literature in the area of Human-Robot Interaction (HRI), specifically on systems containing more than two agents (i.e., having multiple humans and/or multiple robots). We identify three core aspects of ``Multi-agent" HRI systems that are useful for understanding how these systems differ from dyadic systems and from one another. These are the Team structure, Interaction style among agents, and the system's Computational characteristics. Under these core aspects, we present five attributes of HRI systems, namely Team size, Team composition, Interaction model, Communication modalities, and Robot control. These attributes are used to characterize and distinguish one system from another. We populate resulting categories with examples from recent literature along with a brief discussion of their applications and analyze how these attributes differ from the case of dyadic human-robot systems. We summarize key observations from the current literature, and identify challenges and promising areas for future research in this domain. In order to realize the vision of robots being part of the society and interacting seamlessly with humans, there is a need to expand research on multi-human -- multi-robot systems. Not only do these systems require coordination among several agents, they also involve multi-agent and indirect interactions which are absent from dyadic HRI systems. Adding multiple agents in HRI systems requires advanced interaction schemes, behavior understanding and control methods to allow natural interactions among humans and robots. In addition, research on human behavioral understanding in mixed human-robot teams also requires more attention. This will help formulate and implement effective robot control policies in HRI systems with large numbers of heterogeneous robots and humans; a team composition reflecting many real-world scenarios.
translated by 谷歌翻译
Science tests competing theories or models by evaluating the similarity of their predictions against observational experience. Thus, how we measure similarity fundamentally determines what we learn. In machine learning and scientific modeling, similarity metrics are used as objective functions. A classic example being mean squared error, which is the optimal measure of similarity when errors are normally distributed and independent and identically distributed (iid). In many cases, however, the error distribution is neither normal nor iid, so it is left to the scientist to determine an appropriate objective. Here, we review how information theory can guide that selection, then demonstrate the approach with a simple hydrologic model.
translated by 谷歌翻译
脑小血管疾病的成像标记提供了有关脑部健康的宝贵信息,但是它们的手动评估既耗时又受到实质性内部和间际变异性的阻碍。自动化评级可能受益于生物医学研究以及临床评估,但是现有算法的诊断可靠性尚不清楚。在这里,我们介绍了\ textIt {血管病变检测和分割}(\ textit {v textit {where valdo?})挑战,该挑战是在国际医学图像计算和计算机辅助干预措施(MICCAI)的卫星事件中运行的挑战(MICCAI) 2021.这一挑战旨在促进大脑小血管疾病的小而稀疏成像标记的自动检测和分割方法的开发,即周围空间扩大(EPVS)(任务1),脑微粒(任务2)和预先塑造的鞋类血管起源(任务3),同时利用弱和嘈杂的标签。总体而言,有12个团队参与了针对一个或多个任务的解决方案的挑战(任务1 -EPVS 4,任务2 -Microbleeds的9个,任务3 -lacunes的6个)。多方数据都用于培训和评估。结果表明,整个团队和跨任务的性能都有很大的差异,对于任务1- EPV和任务2-微型微型且对任务3 -lacunes尚无实际的结果,其结果尤其有望。它还强调了可能阻止个人级别使用的情况的性能不一致,同时仍证明在人群层面上有用。
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
开普勒和苔丝任务产生了超过100,000个潜在的传输信号,必须处理,以便创建行星候选的目录。在过去几年中,使用机器学习越来越感兴趣,以分析这些数据以寻找新的外延网。与现有的机器学习作品不同,exoMiner,建议的深度学习分类器在这项工作中,模仿域专家如何检查诊断测试以VET传输信号。 exoMiner是一种高度准确,可说明的和强大的分类器,其中1)允许我们验证来自桅杆开口存档的301个新的外延网,而2)是足够的,足以应用于诸如正在进行的苔丝任务的任务中应用。我们进行了广泛的实验研究,以验证exoMiner在不同分类和排名指标方面比现有的传输信号分类器更可靠,准确。例如,对于固定精度值为99%,exoMiner检索测试集中的93.6%的所有外产网(即,召回= 0.936),而最佳现有分类器的速率为76.3%。此外,exoMiner的模块化设计有利于其解释性。我们介绍了一个简单的解释性框架,提供了具有反馈的专家,为什么exoMiner将运输信号分类为特定类标签(例如,行星候选人或不是行星候选人)。
translated by 谷歌翻译
自动化数据驱动的建模,直接发现系统的管理方程的过程越来越多地用于科学界。 Pysindy是一个Python包,提供用于应用非线性动力学(SINDY)方法的稀疏识别到数据驱动模型发现的工具。在Pysindy的这一主要更新中,我们实现了几种高级功能,使得能够从嘈杂和有限的数据中发现更一般的微分方程。延长候选术语库,用于识别致动系统,部分微分方程(PDE)和隐式差分方程。还实施了包括Sindy和合奏技术的整体形式的强大配方,以提高现实世界数据的性能。最后,我们提供了一系列新的优化算法,包括多元稀疏的回归技术和算法来强制执行和促进不等式约束和稳定性。这些更新在一起,可以在文献中尚未报告的全新SINDY模型发现能力,例如约束PDE识别和使用不同稀疏的回归优化器合并。
translated by 谷歌翻译
睡眠研究必须携带与睡眠损失相关的表型和有助于精神病理学的露出机制。最常见的是,调查人员手动将多色网络分类为警惕状态,这是耗时的,需要广泛的培训,并且容易出现帧间间变异性。虽然许多作品已经基于多个EEG通道成功开发了自动化状态分类器,但是我们的目标是生产一种自动化和开放式分类器,可以基于来自啮齿动物的单个皮质脑电图(EEG)来可靠地预测警惕状态,以最大限度地减少伴随的缺点通过电线束缚小动物到计算机程序。大约427小时的连续监测的脑电图,电灰度(EMG)和活性由总数据的571小时的域专家标记。在这里,我们评估各种机器学习技术对分类10-秒钟时期的各种机器学习技术的性能,进入三个离散类中的一种:矛盾,慢波或唤醒。我们的调查包括决策树,随机森林,天真贝叶斯分类器,Logistic回归分类器和人工神经网络。这些方法达到了约74%至约96%的精度。最值得注意的是,随机森林和巢穴分别实现了95.78%和93.31%的显着准确性。在这里,我们已经示出了各种机器学习分类器的潜力,以基于单个EEG读数和单一EMG读数自动,准确地和可靠地对警惕状态进行自动。
translated by 谷歌翻译