正文

google提出两个逆天模型：体积下降7倍，速度提升10倍

人工智能博士  人工智能博士  2023-01-09  530

关键词：

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：新智元

随着神经网络模型和训练数据规模的增长，训练效率正成为深度学习的一个重要焦点。

GPT-3 在小样本学习中表现出卓越的能力，但它需要使用数千个 GPU 进行数周的训练，因此很难重新训练或改进。

相反，如果可以设计出更小、更快、但更准确的神经网络会怎样？

Google 就提出了两类通过神经架构和基于模型容量和泛化性的原则性设计方法（principled design methodology）得到的神经网络模型用来图像识别。

第一个是ICML 2021上提出的EfficientNetV2，主要由卷积神经网络组成，旨在为相对较小的数据集（如ImageNet1k，有128万张图像）提供更快的训练速度。

EfficientNet V2基于以前的EfficientNet架构，为了改进原有的方法，Google 研究团队系统地研究了现代模型TPU/GPU上的训练速度瓶颈，有几个发现：

1、使用非常大的图像进行训练会导致更高的内存使用率，从而导致TPU/GPU上的训练速度通常较慢；

2、广泛使用的深度卷积在TPU/GPU上效率低下，因为它们的硬件利用率较低；

3、常用的uniform compound scaling将卷积网络的每个阶段平均放大，但这并不是最优方法。

为了解决这些问题，研究人员提出了一种面向训练感知的神经架构搜索（train-aware NAS），其中训练速度也包含在优化目标中，并且使用一种以非均匀方式在不同阶段进行缩放，模型代码也已开源。

文章的第一作者是Mingxing Tan，

训练感知 NAS 的架构基于之前的平台感知 platform-aware NAS，但与原方法主要关注推理速度不同，训练感知 NAS 同时优化模型精度、模型大小和训练速度。

模型还扩展了原始搜索空间以包含更多对加速器有利的操作，例如 FusedMBConv 通过删除不必要的操作（例如平均池化和最大池化）来简化搜索空间。

由此产生的 EfficientNetV2 网络在所有以前的模型上都实现了更高的准确性，同时速度更快，体积缩小了 6.8 倍。

为了进一步加快训练过程，研究人员还提出了一种增强的渐进学习方法（progressive learning），该方法在训练过程中逐渐改变图像大小和正则化幅度。

渐进式训练已用于图像分类、GANs和语言模型，并取得了不错的效果。该方法侧重于图像分类，但与以前的方法不同的是，之前的方法通常以精度换取更高的训练速度，它可以略微提高精度，同时显著减少训练时间。

改进方法的关键思想是根据图像大小自适应地改变正则化强度，如dropout 的概率或数据增强程度。对于相同的网络，较小的图像大小导致网络容量较低，因此需要弱正则化；反之亦然，较大的图像大小需要更强的正则化来防止过度拟合。

在 ImageNet 和一些迁移学习数据集上，例如 CIFAR-10/100、Flowers 和 Cars 来评估 EfficientNetV2 模型。在 ImageNet 上，EfficientNetV2 显着优于以前的模型，训练速度提高了约 5-11 倍，模型尺寸缩小了 6.8 倍，准确率没有任何下降。

第二类是CoAtNet，一种结合了卷积和自注意的混合模型，其目标是在大规模数据集上实现更高的精度，如ImageNet21（有1300万张图像）和JFT（有数十亿张图像）。

虽然EfficientNetV2仍然是一个典型的卷积神经网络，但最近对视觉Transformer（visual Transformer, ViT）的研究表明，基于注意的Transfomer 模型在JFT-300M等大规模数据集上的性能优于卷积神经网络。

受这一观察结果的启发，研究人员进一步将研究范围扩展到卷积神经网络之外，以期找到更快、更准确的视觉模型。

研究者系统地研究如何结合卷积和自注意力来开发用于大规模图像识别的快速准确的神经网络。工作结果基于一个观察结论，即卷积由于其归纳偏差（inductive bias）通常具有更好的泛化能力（即训练和评估之间的性能差距），而自注意力Transformer由于其对全局建模的能力更强，所以往往具有更强大的概括能力（即适应大规模训练的能力）。

通过结合卷积和自注意力，得到的混合模型可以实现更好的泛化和更大的容量。

深度卷积和自注意力可以通过简单的相对注意力自然地统一起来，并且垂直堆叠卷积层和注意力层，可以同时考虑到每个阶段所需的容量和计算能力，从而提高泛化性、容量和效率。

在 CoAtNet 架构中，给定大小为 HxW 的输入图像，首先在第一个stem阶段 (S0) 应用卷积并将大小减小到 H/2 x W/2。尺寸随着每个阶段继续减小。Ln 是指层数。前两个阶段（S1和S2）主要采用深度卷积组成的MBConv构建块。后两个阶段（S3和S4）主要采用具有relative self-attention的Transformer块。与之前 ViT 中的 Transformer 块不同，这里使用阶段之间的池化，类似于 Funnel Transformer。最后，我们分类头来生成类别预测概率。

CoAtNet 模型在许多数据集（例如 ImageNet1K、ImageNet21K 和 JFT）中始终优于 ViT 模型及其变体。与卷积网络相比，CoAtNet 在小规模数据集 (ImageNet1K) 上表现出相当的性能，并且随着数据大小的增加（例如在 ImageNet21K 和 JFT 上）取得了可观的收益。

研究人员还在大规模 JFT 数据集上评估了 CoAtNets。为了达到类似的准确度目标，CoAtNet 的训练速度比以前的 ViT 模型快 4 倍，更重要的是，在 ImageNet 上达到了 90.88% 的新的最先进的 top-1 准确度。

与以前的结果相比，新提出的模型速度快了4-10倍，同时在完善的ImageNet数据集上实现了最先进的90.88%top-1精度。

参考资料：

https://ai.googleblog.com/2021/09/toward-fast-and-accurate-neural.html?m=1

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位

如何画出漂亮的深度学习模型图？

如何画出漂亮的神经网络图？

一文读懂深度学习中的各种卷积

点个在看支持一下吧

荷兰研究人员提突破性想法：用红外线传输网络_比wifi快100倍

...一种卡网速的存在。最近荷兰埃因霍温理工大学研究人员提出了一个突破性的想法，使用红外线把无线数查看详情

OpenCL 矩阵乘法速度

...时间】：2015-07-1519:35:53【问题描述】：我编写了一个计算两个矩阵乘积的小型OpenCL应用程序。现在我注意到，如果矩阵的大小超过8192x8192，性能会显着下降（16384x16384的计算速度要慢约80倍），甚至串行实现也快5倍以上。这是主... 查看详情

从单张图重建三维人体模型综述

...3DHumanBodyReconstructionfromaSingleImageviaVolumetricRegression》本文提出使用端到端卷积神经网络通过体积回归直接重建人体的三维几何结构。所提出的方法不需要拟合形状模型，并且可以从各种输入类型（无论是标记点、图像还是分割模... 查看详情

斯坦福博士提出超快省显存attention，gpt-2训练速度提升3.5倍，bert速度创纪录

...说很有用。来看看这是一项什么样的研究~FlashAttention本文提出了一种IO感知精确注意力算法。随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长... 查看详情

glm国产大模型训练加速：性能最高提升3倍，显存节省1/3，低成本上手(代码片段)

作者｜BBuf、谢子鹏、冯文2017年，Google提出了Transformer架构，随后BERT、GPT、T5等预训练模型不断涌现，并在各项任务中都不断刷新SOTA纪录。去年，清华提出了GLM模型（https://github.com/THUDM/GLM），不同... 查看详情

distributedrepresentationsofwordsandphrasesandtheircompositionality论文阅读及实战(代码片段)

...olov等人在《Efficientestimationofwordrepresentationsinvectorspace》中提出Skip-gram模型，是一种高效的可从大量无结构文本数据中学习高质量词向量表示的方法。该模型的训练不涉及密集的矩阵乘法，这使得模型训练很快。该论文提出了几点... 查看详情

高糊视频秒变4k，速度比tecogan快了9倍！东南大学提出新的视频超分辨率系统

博雯发自凹非寺量子位报道|公众号QbitAI把高糊视频变清晰，对于AI而言算不上新鲜事。但如果是实时处理，而且速度比主流方法还快了9倍呢？而且计算量降低了，重建图像的质量却还非常能打：这种图像质量... 查看详情

pytorch实现苹果m1芯片gpu加速：训练速度提升7倍，性能最高提升21倍

...发和研究人员可以利用AppleSiliconCPU的优势，大大加快模型训练速度。这解锁了在Mac上执行机器学习工作流程的能力，例如在本地进行原型设计和微调。据PyTorch官网介绍，其使用Apple的MetalPerformanceShaders（MPS）作... 查看详情

面试时如何完整精确的回答动量下降法(momentum)和adam下降法的原理

...他会朝着最优点收敛。小批量随机梯度下降则是结合了前两个算法的优点，收敛速度快且受噪声的影响较小。这里重点介绍一下动量下降法，他的更新公式：ut=γut−1+ηgtwt+1=wt−ut.上面的两个公式，如果γ=0，那么这就是一... 查看详情

mxgate是gpcopy同步速度的2倍(代码片段)

目录目录集群的架构1、构造测试的数据2、查看数据的大小和行数3、创建表语句4、查看创建后的表5、编写mxgate同步脚本6、编写gpcopy同步脚本7、查看硬件资源7、1CPU和内存信息7、2 网络信息 8、常见问题总结 8、1 sliceboundsout... 查看详情

mxgate是gpcopy同步速度的2倍(代码片段)

2017.7.16学习笔记

...图片效果能达到甚至超过现在的超分辨率解决方案，同时速度提升大约10至100倍，且能够在普通的移动设备上运行。而且，Google的技术可以避免产生混叠效应（al 查看详情

语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型clarinet...

...互中扮演至关重要的角色。百度硅谷人工智能实验室最近提出了一种全新的基于WaveNet的并行音频波形（rawaudiowaveform）生成模型ClariNet，合成速度提升了数千倍，查看详情

梯度下降法和粒子群优化算法的区别

...年来最为流行的进化算法，最早是由Kenned和Eberhart于1995年提出.PSO算法和其他进化算法类似，也采用“群体”和“进化”的概念，通过个体间的协作与竞争，实现复杂空间中最优解的搜索．PSO先生成初始种群，即在可行解空间中... 查看详情

读点论文efficientnetv2:smallermodelsandfastertraining训练感知的神经架构搜索+自适应的渐近训练方法优化训练（tpu，大数据量）(代码片段)

...致准确性的下降。为了弥补这种准确性的下降，本文提出了一种改进的渐进式学习方法，它随着图像大小自适应地调整正则化（如数据增量）。通过渐进式学习，本文的EfficientNetV2在ImageNet和CIFAR/Cars/Flowers数据... 查看详情

逆天！5300亿nlp模型“威震天-图灵”发布！

点击机器学习算法与Python学习，选择加星标精彩内容不迷路量子位报道|公众号QbitAI5300亿参数！全球最大规模NLP模型诞生。由微软联手英伟达推出，名叫威震天-图灵自然语言生成模型（MegatronTuring-NLG）。据绍&#... 查看详情

正文

google提出两个逆天模型：体积下降7倍，速度提升10倍

最新3dgan可生成三维几何数据了！模型速度提升7倍，英伟达&斯坦福出品

荷兰研究人员提突破性想法：用红外线传输网络_比wifi快100倍

OpenCL 矩阵乘法速度

从单张图重建三维人体模型综述

斯坦福博士提出超快省显存attention，gpt-2训练速度提升3.5倍，bert速度创纪录

glm国产大模型训练加速：性能最高提升3倍，显存节省1/3，低成本上手(代码片段)

distributedrepresentationsofwordsandphrasesandtheircompositionality论文阅读及实战(代码片段)

高糊视频秒变4k，速度比tecogan快了9倍！东南大学提出新的视频超分辨率系统

pytorch实现苹果m1芯片gpu加速：训练速度提升7倍，性能最高提升21倍

面试时如何完整精确的回答动量下降法(momentum)和adam下降法的原理

mxgate是gpcopy同步速度的2倍(代码片段)

mxgate是gpcopy同步速度的2倍(代码片段)

2017.7.16学习笔记

语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型clarinet...

梯度下降法和粒子群优化算法的区别

读点论文efficientnetv2:smallermodelsandfastertraining训练感知的神经架构搜索+自适应的渐近训练方法优化训练（tpu，大数据量）(代码片段)

逆天！5300亿nlp模型“威震天-图灵”发布！

逆天！5300亿nlp模型“威震天-图灵”发布！