Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Developmental dysplasia of the hip (DDH) is a condition in infants where the femoral head is incorrectly located in the hip joint. We propose a deep learning algorithm for segmenting key structures within ultrasound images, employing this to calculate Femoral Head Coverage (FHC) and provide a screening diagnosis for DDH. To our knowledge, this is the first study to automate FHC calculation for DDH screening. Our algorithm outperforms the international state of the art, agreeing with expert clinicians on 89.8% of our test images.
translated by 谷歌翻译
机器学习已成为包括运动在内的多个领域的工程设计和决策的组成部分。深度神经网络(DNNS)一直是预测职业体育赛事结果的最新方法。但是,除了对这些体育活动成果进行高度准确的预测外,还必须回答诸如“为什么模型预测A团队会赢得与B队的比赛?”之类的问题? DNN本质上是本质上的黑框。因此,需要为模型在运动中的预测提供高质量的可解释的解释性解释。本文探讨了两步可解释的人工智能(XAI)方法,以预测巴西排球联盟(Superliga)中比赛的结果。在第一阶段,我们直接使用可解释的基于规则的ML模型,这些模型可以根据布尔规则列的生成(BRCG;提取简单和 - 或分类规则)和逻辑回归(logReg;允许估算)对模型的行为进行全局理解。功能重要性得分)。在第二阶段,我们构建了非线性模型,例如支持向量机(SVM)和深神经网络(DNN),以在排球比赛的结果上获得预测性能。我们使用ProtoDash为每个数据实例构建了“事后”解释,该方法在训练数据集中找到原型,与测试实例最相似,而Shap是一种估计每个功能在模型预测中的贡献的方法。我们使用忠诚度量标准评估了摇摆的解释。我们的结果证明了对模型预测的解释的有效性。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
分布式深度学习框架,如联合学习(FL)及其变体都是在广泛的Web客户端和移动/ IOT设备上实现个性化体验。然而,由于模型参数的爆炸增长(例如,十亿参数模型),基于FL的框架受到客户的计算资源的限制。拆分学习(SL),最近的框架,通过拆分客户端和服务器之间的模型培训来减少客户端计算负载。这种灵活性对于低计算设置非常有用,但通常以带宽消耗的增加成本而实现,并且可能导致次优化会聚,尤其是当客户数据异构时。在这项工作中,我们介绍了adasplit,通过降低带宽消耗并提高异构客户端的性能,使得能够将SL有效地缩放到低资源场景。为了捕获和基准的分布式深度学习的多维性质,我们还介绍了C3分数,是评估资源预算下的性能。我们通过与强大联邦和分裂学习基线的大量实验比较进行了大量实验比较,验证了adasplit在有限的资源下的有效性。我们还展示了adasplit中关键设计选择的敏感性分析,该选择验证了adasplit在可变资源预算中提供适应性权衡的能力。
translated by 谷歌翻译
分析对人脸上的表达在识别人的情绪和行为方面发挥着非常重要的作用。识别这些表达式会自动导致自然人机接口的重要组成部分。因此,该领域的研究在生物公制认证,监控系统,情感到各种社交媒体平台中的情感方面具有广泛的应用。另一个申请包括进行客户满意度调查。正如我们所知,大型公司使巨额投资获得反馈并进行调查,但未能获得公平的反应。通过面部手势的情感和性别识别是一种技术,旨在通过他们的评价监测客户行为来改善产品和服务性能。在过去几年中,在特征提取机制,面部检测和表达分类技术方面已经进行了各种各样的进展。本文是实施一个用于构建可以检测到人的情绪和性别的实时系统的集合CNN。实验结果表明,在FER-2013 DataSet上的7个课程(愤怒,恐惧,悲伤,快乐,惊喜,中立,中立,厌恶)和IMDB数据集上的性别分类(男性或女性)的95%,精度为68%的准确性。我们的工作可以预测单一面部图像以及多个面部图像的情感和性别。此外,当通过网络摄像头给出输入时,我们的完整流水线可以花费小于0.5秒才能生成结果。
translated by 谷歌翻译
深度学习领域目睹了对极端计算和内存密集型神经网络的显着转变。这些较新的较大模型使研究人员能够推进各种领域的最先进的工具。这种现象刺激了在更多的硬件加速器上产生了针对神经网络的分布式训练的算法。在本文中,我们讨论并比较了当前的最先进的框架,以实现大规模的分布式深度学习。首先,我们调查分布式学习中的当前实践,并确定所使用的不同类型的并行性。然后,我们提出了对大型图像和语言培训任务的性能进行了经验结果。此外,我们解决了他们的统计效率和内存消耗行为。根据我们的结果,我们讨论了阻碍性能的每个框架的算法和实现部分。
translated by 谷歌翻译
在过去几年中,培训最先进的神经网络的记忆要求远远超过了现代硬件加速器的DRAM能力。这仍然需要开发有效的算法,并在大规模的基于GPU的集群上并行培训这些神经网络。由于在现代GPU上的计算相对便宜,因此在这些并行训练算法中设计和实现极其有效的通信对于提取最大性能至关重要。本文介绍了Axonn,一个并行深度学习框架,用于利用异步和消息驱动的执行来安排每个GPU上的神经网络操作,从而降低GPU空闲时间并最大限度地提高硬件效率。通过使用CPU存储器作为划痕空间来定期在训练期间定期卸载数据,AXONN能够将GPU存储器消耗降低四次。这使我们可以将每个GPU的参数数量增加四次,从而减少通信量并将性能提高超过13%。在48-384 NVIDIA TESLA V100 GPU的大型变压器模型上进行了12-100亿参数,Axonn实现了理论峰的49.4-54.78%的每GPU吞吐量,并将培训时间减少22-37天(15-25与最先进的加速度)。
translated by 谷歌翻译
测量自动语音识别(ASR)系统质量对于创建用户满意的语音驱动应用程序至关重要。传统上,单词错误率(WER)用于评估ASR系统质量;但是,它有时与用户对转录质量的看法/判断息息相关。这是因为wer平等地称重每个单词,并且不考虑对用户感知产生更高影响的语义正确性。在这项工作中,我们提出评估ASR输出的质量,可以通过使用参考的语义向量与从预训练的语言模型中提取的假设之间的距离来测量语义正确性。我们对71K和36K用户注释的ASR输出质量的实验结果表明,与WER相比,Semdist与用户感知的相关性更高。我们还表明,与WER相比,Semdist与下游自然语言理解(NLU)任务具有更高的相关性。
translated by 谷歌翻译
The success of deep learning in vision can be attributed to: (a) models with high capacity; (b) increased computational power; and (c) availability of large-scale labeled data. Since 2012, there have been significant advances in representation capabilities of the models and computational capabilities of GPUs. But the size of the biggest dataset has surprisingly remained constant. What will happen if we increase the dataset size by 10× or 100×? This paper takes a step towards clearing the clouds of mystery surrounding the relationship between 'enormous data' and visual deep learning. By exploiting the JFT-300M dataset which has more than 375M noisy labels for 300M images, we investigate how the performance of current vision tasks would change if this data was used for representation learning. Our paper delivers some surprising (and some expected) findings. First, we find that the performance on vision tasks increases logarithmically based on volume of training data size. Second, we show that representation learning (or pretraining) still holds a lot of promise. One can improve performance on many vision tasks by just training a better base model. Finally, as expected, we present new state-of-theart results for different vision tasks including image classification, object detection, semantic segmentation and human pose estimation. Our sincere hope is that this inspires vision community to not undervalue the data and develop collective efforts in building larger datasets.
translated by 谷歌翻译