智能论文笔记

Turbocharge Interactive NLP at the Edge

Liwei Guo , Wonkyo Choe , Felix Xiaozhu Lin

分类：机器学习

2022-07-11

自然语言处理（NLP）推论正在看到移动应用程序的采用量增加，在此，对于至关重要的保留用户数据隐私和避免网络往返的推论是必需的。然而，NLP模型的前所未有的大小强调了延迟和内存，这是移动设备的两个关键资源。为了满足目标延迟，将整个模型保存在内存中会尽快启动执行，但将一个应用程序的内存足迹增加了几次，将其收益限制为仅在被移动内存管理回收之前的一些推论。另一方面，从存储按需加载模型会导致几秒钟的io长，远远超过了用户满足的延迟范围；由于IO和计算延迟之间的偏斜度很大，因此管道层的模型加载和执行也不会隐藏IO。为此，我们提出了Speedy Transformer推断（STI）。 STI建立在模型最重要的部分上最大化IO/计算资源利用率的关键思想，通过两种新颖的技术来调和延迟/记忆张力。首先，模型碎片。 STI将模型参数视为独立可调的碎片，并介绍了其对准确性的重要性。其次，带有预紧缓冲液的弹性管道计划。 STI实例化IO/计算管道，并使用一个小的缓冲区进行预加载碎片来进行引导执行，而不会在早期阶段停滞不前；它根据资源弹性执行的重要性明智地选择，调音和汇编碎片，从而最大程度地提高推理精度。在两个商品SoC上，我们在实用的目标潜伏期以及CPU和GPU上建立了STI并根据广泛的NLP任务进行评估。我们证明，STI提供高精度的高度较低的记忆级，表现优于竞争基准。

translated by 谷歌翻译

DynO: Dynamic Onloading of Deep Neural Networks from Cloud to Device

Mario Almeida , Stefanos Laskaridis , Stylianos I. Venieris , Ilias Leontiadis , Nicholas D. Lane

分类：计算机视觉 | 机器学习

2021-04-20

最近，使用卷积神经网络（CNNS）存在移动和嵌入式应用的爆炸性增长。为了减轻其过度的计算需求，开发人员传统上揭示了云卸载，突出了高基础设施成本以及对网络条件的强烈依赖。另一方面，强大的SOC的出现逐渐启用设备执行。尽管如此，低端和中层平台仍然努力充分运行最先进的CNN。在本文中，我们展示了Dyno，一种分布式推断框架，将两全其人的最佳框架结合起来解决了几个挑战，例如设备异质性，不同的带宽和多目标要求。启用这是其新的CNN特定数据包装方法，其在onloading计算时利用CNN的不同部分的精度需求的可变性以及其新颖的调度器，该调度器共同调谐分区点并在运行时传输数据精度适应其执行环境的推理。定量评估表明，Dyno优于当前最先进的，通过竞争对手的CNN卸载系统，在竞争对手的CNN卸载系统上提高吞吐量超过一个数量级，最高可达60倍的数据。

translated by 谷歌翻译

DFX: A Low-latency Multi-FPGA Appliance for Accelerating Transformer-based Text Generation

Seongmin Hong , Seungjae Moon , Junsoo Kim , Sungjae Lee , Minsub Kim , Dongsoo Lee , Joo-Young Kim

分类：机器学习

2022-09-22

变形金刚是一种深入学习语言模型，用于数据中心中的自然语言处理（NLP）服务。在变压器模型中，生成的预训练的变压器（GPT）在文本生成或自然语言生成（NLG）中取得了显着的性能，它需要在摘要阶段处理大型输入上下文，然后是产生一个生成阶段的一次单词。常规平台（例如GPU）专门用于在摘要阶段平行处理大型输入，但是由于其顺序特征，它们的性能在生成阶段显着降低。因此，需要一个有效的硬件平台来解决由文本生成的顺序特征引起的高潜伏期。在本文中，我们提出了DFX，这是一种多FPGA加速器，该设备在摘要和发电阶段中执行GPT-2模型端到端，并具有低延迟和高吞吐量。 DFX使用模型并行性和优化的数据流，这是模型和硬件感知的设备之间快速同时执行执行。其计算核心根据自定义说明运行，并提供GPT-2操作端到端。我们在四个Xilinx Alveo U280 FPGAS上实现了建议的硬件体系结构，并利用了高带宽内存（HBM）的所有频道，以及用于高硬件效率的最大计算资源数量。 DFX在现代GPT-2模型上实现了四个NVIDIA V100 GPU的5.58倍加速度和3.99倍的能效。 DFX的成本效益比GPU设备更具成本效益，这表明它是云数据中心中文本生成工作负载的有前途解决方案。

translated by 谷歌翻译

LegoDNN: Block-grained Scaling of Deep Neural Networks for Mobile Vision

Rui Han , Qinglong Zhang , Chi Harold Liu , Guoren Wang , Jian Tang , Lydia Y. Chen

分类：计算机视觉

2021-12-18

深度神经网络（DNN）已成为移动和嵌入式系统中的普遍存在的技术，用于图像/对象识别和分类。执行多个DNN的趋势同时加剧了资源受限移动设备上满足严格延迟/准确性要求的现有限制。现有技术通过根据资源动态缩放模型大小来探索精度资源权衡的光。然而，这种模型缩放方法接近迫在眉睫的挑战：（i）模型尺寸的大空间探索，（ii）对不同模型组合的培训时间非常长。在本文中，我们介绍了Legodnn，一种用于在移动视觉系统中运行多DNN工作负载的轻质块粒度缩放解决方案。 Legodnn仅通过在DNN中提取和培训少数常见块（例如，在VGG和RENET中的VGG和8中的8中）来保证短模型培训时间。在运行时，Legodnn最佳地结合了这些块的后代模型，以最大限度地在特定资源和延迟约束下最大限度地提高精度，同时通过DNN的智能块级缩放来降低切换开销。我们在Tensorflow Lite中实现Legodnn，并通过一组普遍的DNN模型，广泛地评估了最先进的技术（浮标缩放，知识蒸馏和模型压缩）。评估结果表明，乐高达在模型尺寸下提供了1,296倍至279,936倍，而在不增加训练时间的情况下，推断准确性的提高高达31.74％，降低缩放能耗减少了71.07％。

translated by 谷歌翻译

NAWQ-SR: A Hybrid-Precision NPU Engine for Efficient On-Device Super-Resolution

Stylianos I. Venieris , Mario Almeida , Royson Lee , Nicholas D. Lane

分类：计算机视觉

2022-12-15

In recent years, image and video delivery systems have begun integrating deep learning super-resolution (SR) approaches, leveraging their unprecedented visual enhancement capabilities while reducing reliance on networking conditions. Nevertheless, deploying these solutions on mobile devices still remains an active challenge as SR models are excessively demanding with respect to workload and memory footprint. Despite recent progress on on-device SR frameworks, existing systems either penalize visual quality, lead to excessive energy consumption or make inefficient use of the available resources. This work presents NAWQ-SR, a novel framework for the efficient on-device execution of SR models. Through a novel hybrid-precision quantization technique and a runtime neural image codec, NAWQ-SR exploits the multi-precision capabilities of modern mobile NPUs in order to minimize latency, while meeting user-specified quality constraints. Moreover, NAWQ-SR selectively adapts the arithmetic precision at run time to equip the SR DNN's layers with wider representational power, improving visual quality beyond what was previously possible on NPUs. Altogether, NAWQ-SR achieves an average speedup of 7.9x, 3x and 1.91x over the state-of-the-art on-device SR systems that use heterogeneous processors (MobiSR), CPU (SplitSR) and NPU (XLSR), respectively. Furthermore, NAWQ-SR delivers an average of 3.2x speedup and 0.39 dB higher PSNR over status-quo INT8 NPU designs, but most importantly mitigates the negative effects of quantization on visual quality, setting a new state-of-the-art in the attainable quality of NPU-based SR.

translated by 谷歌翻译

Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for Natural Language Understanding

Connor Holmes , Minjia Zhang , Yuxiong He , Bo Wu

分类：自然语言处理 | 人工智能

2022-06-30

近年来，大型预训练的变压器网络已显示出许多自然语言理解任务的巨大改进。但是，由于延迟和成本限制，这些模型的巨大规模给他们的微调和在线部署带来了重大挑战。支持N：M半结构化的稀疏性和低精油整数计算的新硬件是提高DNN模型效率的有前途解决方案。但是，很少有研究系统地研究预先训练的变压器网络在多大程度上受益于这些技术的组合，以及如何最好地压缩变压器的每个组件。我们提出了一个灵活的压缩框架NXMiformer，该框架使用ADMM和基于Ste的QAT执行同时进行稀疏和量化。此外，我们介绍且廉价的启发式驱动搜索算法，该算法标识了满足压缩比约束的有希望的异质压缩配置。当通过NLU基准测试的胶水套件进行评估时，我们的方法可以达到BERT模型编码器的93％压缩，同时保留了98.2％的原始模型准确性并充分利用硬件功能。异质配置通过搜索启发式发现了基线准确性的99.5％，同时仍将模型压缩为87.5％。

translated by 谷歌翻译

Compilation and Optimizations for Efficient Machine Learning on Embedded Systems

Xiaofan Zhang , Yao Chen , Cong Hao , Sitao Huang , Yuhong Li , Deming Chen

分类：机器学习

2022-06-06

深神经网络（DNNS）在各种机器学习（ML）应用程序中取得了巨大成功，在计算机视觉，自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是，基于DNN的ML应用程序也带来计算和存储要求的增加了很多，对于具有有限的计算/存储资源，紧张的功率预算和较小形式的嵌入式系统而言，这尤其具有挑战性。挑战还来自各种特定应用的要求，包括实时响应，高通量性能和可靠的推理准确性。为了应对这些挑战，我们介绍了一系列有效的设计方法，包括有效的ML模型设计，定制的硬件加速器设计以及硬件/软件共同设计策略，以启用嵌入式系统上有效的ML应用程序。

translated by 谷歌翻译

Understanding and Optimizing Deep Learning Cold-Start Latency on Edge Devices

Rongjie Yi , Ting Cao , Ao Zhou , Xiao Ma , Shangguang Wang , Mengwei Xu

分类：机器学习

2022-06-15

如今，DNN在边缘设备上无处不在。随着其重要性和用例的越来越重要，它不太可能将所有DNN包装到设备内存中，并期望每个推断都被加热。因此，寒冷的推断，读取，初始化和执行DNN模型的过程变得司空见惯，并且迫切要求优化其性能。为此，我们提出了NNV12，这是第一个为冷推理NNV12优化的设备推理引擎是在3个新颖的优化旋钮上构建的：为每个DNN操作员选择适当的内核（实现），绕过权重转换过程，以缓存该帖子。 - 在磁盘上转移权重，并在不对称处理器上进行了许多核的管道执行。为了解决巨大的搜索空间，NNV12采用了基于启发式的计划来获得近乎最佳的内核计划计划。我们完全实施了NNV12的原型，并在广泛的实验中评估了其性能。它表明，与Edge CPU和GPU上的最先进的DNN发动机相比，NNV12的达到15.2倍和401.5倍。

translated by 谷歌翻译

Mixed-Precision Neural Networks: A Survey

Mariam Rakka , Mohammed E. Fouda , Pramod Khargonekar , Fadi Kurdahi

分类：机器学习 | 人工智能

2022-08-11

混合精确的深神经网络达到了硬件部署所需的能源效率和吞吐量，尤其是在资源有限的情况下，而无需牺牲准确性。但是，不容易找到保留精度的最佳每层钻头精度，尤其是在创建巨大搜索空间的大量模型，数据集和量化技术中。为了解决这一困难，最近出现了一系列文献，并且已经提出了一些实现有希望的准确性结果的框架。在本文中，我们首先总结了文献中通常使用的量化技术。然后，我们对混合精液框架进行了彻底的调查，该调查是根据其优化技术进行分类的，例如增强学习和量化技术，例如确定性舍入。此外，讨论了每个框架的优势和缺点，我们在其中呈现并列。我们最终为未来的混合精液框架提供了指南。

translated by 谷歌翻译

An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers

Chao Fang , Aojun Zhou , Zhongfeng Wang

分类：机器学习

2022-08-12

在深度学习中，变压器一直是必不可少的主食。但是，对于现实生活中的应用程序，由于模型的巨大参数和操作，部署有效的变压器非常具有挑战性。为了减轻这种负担，利用稀疏是加速变压器的有效方法。新出现的Ampere GPU利用2：4的稀疏模式来实现模型加速度，而在部署模型时，它几乎无法满足各种算法和硬件约束。相比之下，我们提出了一个算法 - 铁软件合作的框架，以灵活有效地加速变压器，通过使用一般的N：M稀疏模式。（1）从算法的角度来看，我们提出了一种稀疏性遗传机制以及一种遗传的动态修剪（IDP）方法，以迅速获得一系列N：M稀疏候选变压器。进一步提出了模型压缩方案，以显着减少部署的存储需求。（2）从硬件的角度来看，我们提出了一种灵活，有效的硬件体系结构，即STA，以在部署N：M稀疏变压器时达到显着加速。 STA不仅具有具有较高计算效率的稀疏密度和致密矩阵乘法的计算引擎，而且还具有可扩展的软模块，从而消除了中级外芯片外数据通信的延迟。实验结果表明，与其他使用IDP生成的其他方法相比，n：m稀疏变压器的准确性平均提高了6.7％。此外，与Intel I9-9900X和NVIDIA RTX 2080 TI相比，STA可以达到14.47倍和11.33倍的速度，并且比最先进的基于FPGA的加速器对变形金刚的最先进的推断速度可以快2.00-19.47倍。

translated by 谷歌翻译

Machine Learning for Microcontroller-Class Hardware -- A Review

Swapnil Sayan Saha , Sandeep Singh Sandha , Mani Srivastava

分类：机器学习

2022-05-29

机器学习的进步为低端互联网节点（例如微控制器）带来了新的机会，将情报带入了情报。传统的机器学习部署具有较高的记忆力，并计算足迹阻碍了其在超资源约束的微控制器上的直接部署。本文强调了为MicroController类设备启用机载机器学习的独特要求。研究人员为资源有限的应用程序使用专门的模型开发工作流程，以确保计算和延迟预算在设备限制之内，同时仍保持所需的性能。我们表征了微控制器类设备的机器学习模型开发的广泛适用的闭环工作流程，并表明几类应用程序采用了它的特定实例。我们通过展示多种用例，将定性和数值见解介绍到模型开发的不同阶段。最后，我们确定了开放的研究挑战和未解决的问题，要求仔细考虑前进。

translated by 谷歌翻译

On-device Training: A First Overview on Existing Systems

Shuai Zhu , Thiemo Voigt , JeongGil Ko , Fatemeh Rahimian

分类：机器学习

2022-12-01

The recent breakthroughs in machine learning (ML) and deep learning (DL) have enabled many new capabilities across plenty of application domains. While most existing machine learning models require large memory and computing power, efforts have been made to deploy some models on resource-constrained devices as well. There are several systems that perform inference on the device, while direct training on the device still remains a challenge. On-device training, however, is attracting more and more interest because: (1) it enables training models on local data without needing to share data over the cloud, thus enabling privacy preserving computation by design; (2) models can be refined on devices to provide personalized services and cope with model drift in order to adapt to the changes of the real-world environment; and (3) it enables the deployment of models in remote, hardly accessible locations or places without stable internet connectivity. We summarize and analyze the-state-of-art systems research to provide the first survey of on-device training from a systems perspective.

translated by 谷歌翻译

SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training

Xiaohan Chen , Yang Zhao , Yue Wang , Pengfei Xu , Haoran You , Chaojian Li , Yonggan Fu , Yingyan Lin , Zhangyang Wang

分类：机器学习 | (统计)机器学习

2021-01-04

深度神经网络（DNN）的记录断裂性能具有沉重的参数化，导致外部动态随机存取存储器（DRAM）进行存储。 DRAM访问的禁用能量使得在资源受限的设备上部署DNN是不普遍的，呼叫最小化重量和数据移动以提高能量效率。我们呈现SmartDeal（SD），算法框架，以进行更高成本的存储器存储/访问的较低成本计算，以便在推理和培训中积极提高存储和能量效率。 SD的核心是一种具有结构约束的新型重量分解，精心制作以释放硬件效率潜力。具体地，我们将每个重量张量分解为小基矩阵的乘积以及大的结构稀疏系数矩阵，其非零被量化为-2的功率。由此产生的稀疏和量化的DNN致力于为数据移动和重量存储而大大降低的能量，因为由于稀疏的比特 - 操作和成本良好的计算，恢复原始权重的最小开销。除了推理之外，我们采取了另一次飞跃来拥抱节能培训，引入创新技术，以解决培训时出现的独特障碍，同时保留SD结构。我们还设计专用硬件加速器，充分利用SD结构来提高实际能源效率和延迟。我们在不同的设置中对多个任务，模型和数据集进行实验。结果表明：1）应用于推理，SD可实现高达2.44倍的能效，通过实际硬件实现评估; 2）应用于培训，储存能量降低10.56倍，减少了10.56倍和4.48倍，与最先进的训练基线相比，可忽略的准确性损失。我们的源代码在线提供。

translated by 谷歌翻译

Harmony: Overcoming the Hurdles of GPU Memory Capacity to Train Massive DNN Models on Commodity Servers

Youjie Li , Amar Phanishayee , Derek Murray , Jakub Tarnawski , Nam Sung Kim

分类：机器学习

2022-02-02

在过去的十年中，深度神经网络（DNNS）的规模成倍增长，只剩下那些具有大量基于数据中心的资源的人具有开发和培训此类模型的能力。对于可能只有有限的资源（例如，单个多GPU服务器）的研究人员的长尾巴的主要挑战之一是GPU内存能力与模型大小相比。问题是如此严重，以至于训练大规模DNN模型的内存需求通常可以超过单个服务器上所有可用GPU的总容量；这个问题只会随着不断增长的模型大小的趋势而变得更糟。当前依赖于虚拟化GPU内存的解决方案（通过向CPU内存交换/从CPU内存）会产生过多的交换开销。在本文中，我们提出了一个新的培训框架，和谐和倡导者，重新思考了DNN框架如何安排计算并移动数据以在单个商品服务器上有效地推动培训大规模模型的边界。在各种大型DNN模型中，Harmony能够将交换负载最多减少两个数量级，并在具有虚拟化内存的高度优化基线上获得高达7.6倍的训练吞吐量加速。

translated by 谷歌翻译

CoCoPIE XGen: A Full-Stack AI-Oriented Optimizing Framework

Xiaofeng Li , Bin Ren , Xipeng Shen , Yanzhi Wang

分类：机器学习 | 人工智能 | 计算机视觉

2022-06-21

对将AI功能从云上的数据中心转移到边缘或最终设备的需求越来越大，这是由在智能手机，AR/VR设备，自动驾驶汽车和各种汽车上运行的快速实时AI的应用程序举例说明的。物联网设备。然而，由于DNN计算需求与边缘或最终设备上的计算能力之间的较大增长差距，这种转变受到了严重的阻碍。本文介绍了XGEN的设计，这是DNN的优化框架，旨在弥合差距。 XGEN将横切共同设计作为其一阶考虑。它的全栈AI面向AI的优化包括在DNN软件堆栈的各个层的许多创新优化，所有这些优化都以合作的方式设计。独特的技术使XGEN能够优化各种DNN，包括具有极高深度的DNN（例如Bert，GPT，其他变形金刚），并生成代码比现有DNN框架中的代码快几倍，同时提供相同的准确性水平。

translated by 谷歌翻译

Efficiently Scaling Transformer Inference

Reiner Pope , Sholto Douglas , Aakanksha Chowdhery , Jacob Devlin , James Bradbury , Anselm Levskaya , Jonathan Heek , Kefan Xiao , Shivani Agrawal , Jeff Dean

分类：机器学习 | 自然语言处理

2022-11-09

We study the problem of efficient generative inference for Transformer models, in one of its most challenging settings: large deep models, with tight latency targets and long sequence lengths. Better understanding of the engineering tradeoffs for inference for large Transformer-based models is important as use cases of these models are growing rapidly throughout application areas. We develop a simple analytical model for inference efficiency to select the best multi-dimensional partitioning techniques optimized for TPU v4 slices based on the application requirements. We combine these with a suite of low-level optimizations to achieve a new Pareto frontier on the latency and model FLOPS utilization (MFU) tradeoffs on 500B+ parameter models that outperforms the FasterTransformer suite of benchmarks. We further show that with appropriate partitioning, the lower memory requirements of multiquery attention (i.e. multiple query heads share single key/value head) enables scaling up to 32x larger context lengths. Finally, we achieve a low-batch-size latency of 29ms per token during generation (using int8 weight quantization) and a 76% MFU during large-batch-size processing of input tokens, while supporting a long 2048-token context length on the PaLM 540B parameter model.

translated by 谷歌翻译

Efficient Methods for Natural Language Processing: A Survey

Marcos Treviso , Tianchu Ji , Ji-Ung Lee , Betty van Aken , Qingqing Cao , Manuel R. Ciosici , Michael Hassid , Kenneth Heafield , Sara Hooker , Pedro H. Martins

分类：自然语言处理

2022-08-31

从有限的资源中获得最大收益可以进步自然语言处理（NLP）研究和实践，同时保守资源。这些资源可能是数据，时间，存储或能源。NLP的最新工作从缩放率产生了有趣的结果。但是，仅使用比例来改善结果意味着资源消耗也会扩展。这种关系激发了对有效方法的研究，这些方法需要更少的资源才能获得相似的结果。这项调查涉及NLP效率的方法和发现，旨在指导该领域的新研究人员并激发新方法的发展。

translated by 谷歌翻译

Efficient Processing of Deep Neural Networks: A Tutorial and Survey

Vivienne Sze , Yu-Hsin Chen , Tien-Ju Yang , Joel Emer

分类：

2017-03-27

Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.

translated by 谷歌翻译

Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design

Hongxiang Fan , Thomas Chau , Stylianos I. Venieris , Royson Lee , Alexandros Kouris , Wayne Luk , Nicholas D. Lane , Mohamed S. Abdelfattah

分类：机器学习

2022-09-20

基于注意力的神经网络在许多AI任务中都普遍存在。尽管其出色的算法性能，但注意力机制和前馈网络（FFN）的使用仍需要过多的计算和内存资源，这通常会损害其硬件性能。尽管已经引入了各种稀疏变体，但大多数方法仅着重于缓解算法级别上的二次注意力缩放，而无需明确考虑将其方法映射到真实硬件设计上的效率。此外，大多数努力仅专注于注意机制或FFN，但没有共同优化这两个部分，导致当前的大多数设计在处理不同的输入长度时缺乏可扩展性。本文从硬件角度系统地考虑了不同变体中的稀疏模式。在算法级别上，我们提出了Fabnet，这是一种适合硬件的变体，它采用统一的蝴蝶稀疏模式来近似关注机制和FFN。在硬件级别上，提出了一种新颖的适应性蝴蝶加速器，可以在运行时通过专用硬件控件配置，以使用单个统一的硬件引擎加速不同的蝴蝶层。在远程 - ARENA数据集上，FabNet达到了与香草变压器相同的精度，同时将计算量减少10到66次，参数数量为2至22次。通过共同优化算法和硬件，我们的基于FPGA的蝴蝶加速器在归一化到同一计算预算的最新加速器上达到了14.2至23.2倍的速度。与Raspberry Pi 4和Jetson Nano上优化的CPU和GPU设计相比，我们的系统在相同的功率预算下的最大273.8和15.1倍。

translated by 谷歌翻译

DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale

Reza Yazdani Aminabadi , Samyam Rajbhandari , Minjia Zhang , Ammar Ahmad Awan , Cheng Li , Du Li , Elton Zheng , Jeff Rasley , Shaden Smith , Olatunji Ruwase

分类：机器学习

2022-06-30

过去的几年见证了基于变压器的模型的成功，其规模和应用方案继续积极发展。变压器模型的当前景观越来越多样化：该模型大小差异很大，最大的参数是最大的。模型特性由于特征的混合物所引入的稀疏性而有所不同。目标应用程序方案可以是关键延迟或面向吞吐量的情况；部署硬件可以是具有不同类型的内存和存储等单身或多GPU系统。随着多样性的增加和变压器模型的快速发展速度，设计高性能和高效的推理系统非常具有挑战性。在本文中，我们提出了DeepSpeed推断，这是用于解决上述挑战的变压器模型推理的全面系统解决方案。深速推理包括（1）一种多GPU推理解决方案，可最大程度地减少潜伏度，同时最大化密集和稀疏变压器模型的吞吐量，当它们适合聚集的GPU内存时，以及（2）一种异质推理解决方案，该解决方案利用CPU和NVME内存中的CPU和NVME内存。除了GPU内存和计算以使高推理吞吐量具有不适合聚集GPU内存的大型推理吞吐量。对于面向延迟的方案，深速推理可将延迟降低到最新的7倍，而对于面向吞吐量的方案，延迟的潜伏期将延迟减少到1.5倍以上。此外，它通过利用数百个GPU来实现实时延迟约束下的参数量表推断，这是一个前所未有的推理。它可以比仅使用GPU的解决方案更大的25倍模型，同时提供84个TFLOPS（超过50美元的A6000峰值）。

translated by 谷歌翻译