正文

教大模型自己跳过“无用”层，推理速度×3性能不变，谷歌mit这个新方法火了...

QbitAl  QbitAl  2022-11-30  281

关键词：

萧箫发自凹非寺
量子位 | 公众号 QbitAI

大语言模型用着爽，但推理速度实在太慢了？

而且，增加模型体积，推理效果也并不一定就比之前更好。

为了解决这一问题，谷歌MIT的研究人员提出了一个新框架CALM，让它自己来决定计算量。

如果CALM意识到某些层“可有可无”，那么它在计算时就会跳过这些层。

论文被po到网上后，立刻火了一波：

有网友表示，我们就是需要这样更智能和自适应的模型，显然CALM的解码器已经做到了：

直接用中间层输出结果

CALM全称Confident Adaptive Language Modeling，即置信自适应大语言模型。

这一模型基于Transformer架构，为了加速它的计算，研究人员提出了一个名叫“提前退出”（early exiting）的方法，让模型根据不同的输入，动态决定要用多少层网络来计算。

也就是说，在计算的过程中，模型不需要经过每一层计算再输出结果，而是能直接用中间层的特征输出token，从而降低模型计算量。

所以，模型如何决定“退出”的时机呢？

这就需要训练模型学会自己判断了。

其中，Yfull是标准模型输出的结果，Yearly是模型“提前退出”时输出的结果。为了让Yearly的效果更好，就需要尽可能让它与Yfull保持一致。

当然，不同的任务对于文本输出一致性也有不同的要求，例如对生成结果要求没那么严格（可以生成更多样的语句）的任务，对于Yfull和Yearly的一致性要求就没那么高。

因此作者们也在论文中给出了两个不同的公式，可根据实际情况选用：

在实际操作上，论文通过设置一个局部的token置信度，来检查其对整个生成序列的影响。

模型在解码过程中，会计算每一层的置信度c，并将它与达到“提前退出”的阈值λ相比，如果c大于λ，则模型“提前退出”。

所以，这样的模型实际测试效果究竟如何？

归纳翻译QA任务表现都不错

论文在CNN/DM、WMT和SQuAD三个数据集上进行了测试。

其中，CNN/DM是一个新闻文章数据集，需要输出一个几句话概括文章的结果；WMT15 EN-FR是一个机器翻译数据集，主要是法译英句子的结果；Open-book SQUAD 1.1则是一个根据维基百科提问的QA数据集。

据一作Tal Schuster介绍，在保持相同性能的情况下，CALM使用的解码器层数平均比之前降低了3倍。

对于这篇论文，有网友表示赞同：模型确实不需要总是“长时间深入思考”，有时候几层就能推理出正确答案了。

据作者表示，这一加速解码的思路，适用于任何Seq2seq模型。

作者介绍

这篇论文的作者一共有8个人，分别来自谷歌和MIT CSAIL，其中主要负责人有两位，Tal Schuster和Adam Fisch。

Tal Schuster博士毕业于MIT，目前是谷歌的高级研究员，研究方向是机器学习模型的鲁棒性、可靠性和效率提升。

Adam Fisch，MIT在读博士生，本科毕业于普林斯顿大学，研究方向是机器学习量化不确定性、少样本学习等。

对大语言模型推理加速感兴趣的小伙伴，可以戳论文地址详细了解。

论文地址：
https://arxiv.org/abs/2207.07061

参考链接：
https://twitter.com/TalSchuster/status/1547966142412513282

地址标准化服务ai深度学习模型推理优化实践

...应时间不变的前提下，使用结构更为复杂的深度学习模型，进而提升业务精度指标。本文针对地址标准化服务中的深度学习模型开展了推理性能优化工作。通过高性能算子、量化、编译优化等优化手段，在精度指标不... 查看详情

“一键”模型迁移，性能翻倍，多语言altdiffusion推理速度超快

...的热情要求，OneFlow正在将业内备受欢迎的相关Diffusion模型的加速“一网打尽”。此前，OneFlow首度将StableDiffusion模型加速至“一秒出图”时代，极大提升了文生图的速度，在AIGC领域引发巨大反响，并得到了Stabi... 查看详情

地址标准化服务ai深度学习模型推理优化实践

...持响应时间不变的前提下，使用结构更为复杂的深度学习模型，进而提升业务精度指标。本文针对地址标准化服务中的深度学习模型开展了推理性能优化工作。通过高性能算子、量化、编译优化等优化手段，在精度查看详情

ai性能优化之tensorrt（1tensorrt简介及安装）(代码片段)

...ensorRT，您可以优化在所有主要框架中训练的神经网络模型，精确校正低精度，并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台中。TensorRT以NVIDIA的并行编程模型CUDA为基础构建而成，可帮助您利用CUD... 查看详情

模型推理加速系列04：bert加速方案对比torchscriptvs.onnx(代码片段)

文章目录简介基于ONNX导出ONNX模型示例代码基于TorchScriptJITTorchScript示例代码推理速度评测CPUGPU附录简介本文以BERT-base的为例，介绍2种常用的推理加速方案：ONNX和TorchScript，并实测对比这两种加速方案与原始Pytorch模型... 查看详情

速度超快！字节跳动开源序列推理引擎lightseq(代码片段)

这应该是业界第一款完整支持Transformer、GPT等多种模型高速推理的开源引擎。2017年Google提出了Transformer[1]模型，之后在它基础上诞生了许多优秀的预训练语言模型和机器翻译模型，如BERT[2]、GPT系列[13]等，不断刷新着众多自然语... 查看详情

两行代码自动压缩vit模型！模型体积减小3.9倍，推理加速7.1倍

Transformer模型及其变体，因其更优的注意力机制能力和长时依赖等特性，已成为自然语言处理(NLP)、语音识别(ASR)、计算机视觉(CV)等领域的主流序列建模结构。根据PaperWithCode网站ObjectDetectiononCOCOtest-dev专栏数据，检测... 查看详情

tensorrt模型加速1-输入输出部署流程

...TensorRT的输入、输出以及部署流程，了解TensorRT在部署模型中起到的作用。然后介绍TensorRT模型导入流程，针对不同的深度学习框架，使用不同的方法导入模型。一、TensorRT简介TensorRT是NVIDIA公司发布的一个高性能的深... 查看详情

你或许也想拥有专属于自己的ai模型文件格式(推理部署篇)-(代码片段)

OCL-ENGINE的CPUDebug调试接口适配1、前言2、介绍余弦相似度计算函数的实现细节2.1、模板函数实现3、InferenceDebugByCpu调试推理接口3.1、调用流程3.2、实现细节4、cpu_run调试推理部分如何从cl核函数转换4.1、关于opencl的cl核函数说明4.2... 查看详情

模型推理英伟达jetson系列边缘盒子性能测评

本文记录了英伟达Jetson系列边缘盒子的性能测评小结。测评的AIBox是分别来自浪潮、研智、米文，盒子型号包括浪潮JetsonXavierNX、研智JetsonXavierNX、米文JetsonNano、米文JetsonTX2NX、米文JetsonXavierNX、米文JetsonAGXXavier，数据... 查看详情

ncnn模型推理详解及实战(代码片段)

...cpu和内存硬件特性描述。最后结合shufflenetsample解析了，模型推理的全部流程，详解了sample代码的每个细节。一，依赖库知识速学aarch64OpenMPAVX512submoduleaptupgrade二，硬件基础知识速学2.1，内存2.2，CPU三，ncnn推理模型3.1，shufflenetv2... 查看详情

tflite 量化推理非常慢

...：2020-02-0911:30:27【问题描述】：我正在尝试将经过训练的模型从检查点文件转换为tflite。我正在使用tf.lite.LiteConverter。浮点转换以合理的推理速度进行得很好。但是INT8转换的推理速度很慢。我尝试通过输入一个非常小的网络进... 查看详情

模型推理加速系列bert加速方案对比torchscriptvs.onnx(代码片段)

神经网络推理加速：合并卷积和bn层运算原理及实验(代码片段)

1. 为什么要合并BN层在训练深度网络模型时，BN（BatchNormalization）层能够加速网络收敛，并且能够控制过拟合，一般放在卷积层之后。BN层将数据归一化后，能够有效解决梯度消失与梯度爆炸问题。虽然BN层... 查看详情

bert模型压缩方法

模型压缩可减少受训神经网络的冗余，由于几乎没有BERT或者BERT-Large模型可直接在GPU及智能手机上应用，因此模型压缩方法对于BERT的未来的应用前景而言，非常有价值。一、压缩方法1、剪枝——即训练后从网络中... 查看详情

yolov6训练自己的数据集(代码片段)

...v6-M/L还实现了更好的准确度性能（即49.5%/52.3%）。模型指标模型输入尺寸mAPval0.5:0.95速度T4trtfp16b1(fps)速度T4trtfp16b32(fps)Params(M)FLOPs(G)YOLOv6-N64037.577911874.711.4YOLOv6-S64045.033948418.545.3YOLOv6-M64050.0175226 查看详情

美团视觉gpu推理服务部署架构优化实践(代码片段)

...U利用率普遍较低的挑战，美团视觉研发团队决定通过模型结构拆分和微服务化进行优化，他们提出了一种通用高效的部署架构，来解决这种常见的性能瓶颈问题。以“图像检测+分类”服务为例，优化后的服务... 查看详情

CUDA 内核和流式多处理器对推理速度至关重要

...了解，NVIDIAGPU的CUDA内核数量决定了它运行单个深度学习模型的速度。因此，如果我使用NVIDIATITANRTXGPU在0.5秒内对模型运行推理，该GPU具有72个流式多处理器和4608 查看详情

正文

教大模型自己跳过“无用”层，推理速度×3性能不变，谷歌mit这个新方法火了...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

直接用中间层输出结果

归纳翻译QA任务表现都不错

作者介绍

地址标准化服务ai深度学习模型推理优化实践

“一键”模型迁移，性能翻倍，多语言altdiffusion推理速度超快

地址标准化服务ai深度学习模型推理优化实践

ai性能优化之tensorrt（1tensorrt简介及安装）(代码片段)

模型推理加速系列04：bert加速方案对比torchscriptvs.onnx(代码片段)

速度超快！字节跳动开源序列推理引擎lightseq(代码片段)

两行代码自动压缩vit模型！模型体积减小3.9倍，推理加速7.1倍

tensorrt模型加速1-输入输出部署流程

你或许也想拥有专属于自己的ai模型文件格式(推理部署篇)-(代码片段)

模型推理英伟达jetson系列边缘盒子性能测评

ncnn模型推理详解及实战(代码片段)

tflite 量化推理非常慢

模型推理加速系列bert加速方案对比torchscriptvs.onnx(代码片段)

神经网络推理加速：合并卷积和bn层运算原理及实验(代码片段)

bert模型压缩方法

yolov6训练自己的数据集(代码片段)

美团视觉gpu推理服务部署架构优化实践(代码片段)

CUDA 内核和流式多处理器对推理速度至关重要

萧箫发自凹非寺
量子位 | 公众号 QbitAI