onlytrainonce:微软浙大等研究者提出剪枝框架oto,无需微调即可获得轻量级架构...

Charmve Charmve     2022-12-31     344

关键词:

点击上方“迈微AI研习社”,选择“星标★”公众号

重磅干货,第一时间送达

来源 | 机器之心

来自微软、浙江大学等机 构的研究者提出了一种 one-shot DNN 剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。

大型神经网络学习速度很快,性能也往往优于其他较小的模型,但它们对资源的巨大需求限制了其在现实世界的部署。

剪枝是最常见的 DNN 压缩方法之一,旨在减少冗余结构,给 DNN 模型瘦身的同时提高其可解释性。然而,现有的剪枝方法通常是启发式的,而且只针对特定任务,还非常耗时,泛化能力也很差。

在一篇标题为《 Only Train Once: A One-Shot Neural Network Training And Pruning Framework》的论文中,来自微软、浙江大学等机构的研究者给出了针对上述问题的解决方案,提出了一种 one-shot DNN 剪枝框架。它可以让开发者无需微调就能从大型神经网络中得到轻量级架构。这种方法在保持模型高性能的同时显著降低了其所需的算力。

论文链接:https://arxiv.org/pdf/2107.07467.pdf

该研究的主要贡献概括如下:

  1. One-Shot 训练和剪枝。研究者提出了一个名为 OTO(Only-Train-Once)的 one-shot 训练和剪枝框架。它可以将一个完整的神经网络压缩为轻量级网络,同时保持较高的性能。OTO 大大简化了现有剪枝方法复杂的多阶段训练 pipeline,适合各种架构和应用,因此具有通用性和有效性。

  2. Zero-Invariant Group(ZIG)。研究者定义了神经网络的 zero-invariant group。如果一个框架被划分为 ZIG,它就允许我们修剪 zero group,同时不影响输出,这么做的结果是 one-shot 剪枝。这种特性适用于全连接层、残差块、多头注意力等多种流行结构。

  3. 新的结构化稀疏优化算法。研究者提出了 Half-Space Stochastic Projected Gradient(HSPG),这是一种解决引起正则化问题的结构化稀疏的方法。研究团队在实践中展示并分析了 HSPG 在促进 zero group 方面表现出的优势(相对于标准近端方法)。ZIG 和 HSPG 的设计是网络无关的,因此 OTO 对于很多应用来说都是通用的。

  4. 实验结果。利用本文中提出的方法,研究者可以从头、同时训练和压缩完整模型,无需为了提高推理速度和减少参数而进行微调。在 VGG for CIFAR10、ResNet50 for CIFAR10/ImageNet 和 Bert for SQuAD 等基准上,该方法都实现了 SOTA 结果。

方法及实验介绍

OTO 的结构非常简单。给定一个完整的模型,首先将可训练的参数划分为 ZIG 集,产生了一个结构化稀疏优化问题,通过一个新的随机优化器 (HSPG) 得出高度组稀疏的解。最后通过剪枝这些 zero group 得到一个压缩模型。

团队提出的 HSPG 随机优化算法是针对非光滑正则化问题而设计的,与经典算法相比,该算法在保持相似收敛性的同时,能够更有效地增强群体稀疏性搜索。

为了评估 OTO 在未经微调的 one-shot 训练和剪枝中的性能,研究者在 CNN 的基准压缩任务进行了实验,包括 CIFAR10 的 VGG16,CIFAR10 的 ResNet50 和  ImagetNet (ILSVRC2012),研究者比较了 OTO 与其当前各个 SOTA 算法在 Top-1 精度和 Top-5 精度、剩余的 FLOPs 和相应的 baseline 参数。

表 1:CIFAR10 中的 VGG16 及 VGG16-BN 模型表现。

在 CIFAR10 的 VGG16 实验中,OTO 将浮点数减少了 83.7%,将参数量减少了 97.5%,性能表现令人印象深刻。

在 CIFAR10 的 ResNet50 实验中,OTO 在没有量化的情况下优于 SOTA 神经网络压缩框架 AMC 和 ANNC,仅使用了 12.8% 的 FLOPs 和 8.8% 的参数。

表 2:CIFAR10 的 ResNet50 实验。

在 ResNet50 的 ImageNet 实验中,OTO 减少了 64.5% 的参数,实现了 65.5% 的浮点数减少,与 baseline 的 Top-1/5 精度相比只有 1.4%/0.8% 的差距 。

表 3:ResNet50 的 ImageNet。

更多细节可参考论文原文,更多精彩内容请关注迈微AI研习社,每天晚上七点不见不散!

△长按添加迈微官方微信号 

备注:姓名-学校/公司-研究方向-城市

(如:小C-北大-目标检测-北京)

推荐阅读

(点击标题可跳转阅读)

迈微AI研习社

微信号: MaiweiE_com

GitHub: @Charmve

CSDN、知乎: @Charmve

投稿: yidazhang1@gmail.com

主页: github.com/Charmve

在看,让更多人看到  

微软浙大等提出剪枝框架oto,无需微调即可获得轻量级架构

...删除转载于:机器之心来自微软、浙江大学等机构的研究者提出了一种one-shotDNN剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。大型神经 查看详情

微软浙大等提出剪枝框架oto,无需微调即可获得轻量级架构

...删除转载于:机器之心来自微软、浙江大学等机构的研究者提出了一种one-shotDNN剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。大型神经 查看详情

swintransformer为主干,清华等提出moby自监督学习方法,代码已开源

...Xie等机器之心编译来自清华大学、西安交大、微软亚研的研究者提出了一种称为MoBY的自监督学习方法,其中以VisionTransformer作为其主干架构,将MoCov2和BYOL结合,并在ImageNet-1K线性评估中 查看详情

圆盘纵剪机箱体设计任务书

...计)题目:圆盘纵剪机箱体设计二、毕业设计(论文)的研究内容和任务要求(含阅读文献与综述要求,外文译文,主要技术指标要求、实验与调研内容等方面)2.1主要研究内容以及技术指标要求主要研究内容:(1)熟悉课题,前... 查看详情

浙大计算机系研究生有多难考?

浙大计算机系研究生有多难考取决于自己基础和备考:1、每个人的基础都不一样,如果本科学校是名校并且成绩不错则不难考,否则会有一定的难度,毕竟录取是比初试和复试的分数。2、难易是相对不同的备考情况而言,如果... 查看详情

浙大提出无数据知识蒸馏新方法

点上方人工智能算法与Python大数据获取更多干货在右上方 ··· 设为星标 ★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于:机器之心在无法获取到原始训练数据的情况下,你可以尝试一下... 查看详情

北京亚洲微软研究院-微软游记

文章目录微软游记黑科技交流会办公区晚餐结束微软游记11月24日,身为一名初出茅庐得技术博主,有幸来到微软亚洲研究院,与CSDN一些博主们共同学习!通过这一天对微软的认识,让我有了更多的想法。今天... 查看详情

在浙大研究生公告查到编程环境是vc\tc,没有说eclipse,但是网上又有人说浙大计算机复试可以用java。

到底能不能用Java呢?参考技术A浙大复试用的是OJ,可以java的 查看详情

eccv2018|给cycle-gan加上时间约束,cmu等提出新型视频转换方法recycle-gan

CMU和Facebook的研究者联合进行的一项研究提出了一种新型无监督视频重定向方法Recycle-GAN,该方法结合了时间信息和空间信息,可实现跨域转换,同时保留目标域的风格。相较于只关注空间信息的Cycle-GAN,在视频转换中Recycle-GAN的... 查看详情

如何在flowusnotion等笔记软件中使用网页剪藏工具收藏内容?

...剪藏,很多人首先会想起印象笔记剪藏。如今,你在谷歌等浏览器商店搜索剪藏,便会发现OneNote、GoogleKeep等多种网页剪藏插件。对于很多用户而言,与其寄希望于在线服务,更喜欢将网页内容永久保存至自己的笔记应用之中。... 查看详情

2021/11/24微软亚州研究院游记

目录文章目录目录微软亚州研究院游记微软新视界MSRA宣讲会晚餐微软亚州研究院游记微软新视界微软亚州研究院(MSRA)无疑是声名远扬的,得益于CSDN举办的活动,有幸一同参观,感谢所有的工作伙伴以及朋... 查看详情

北京亚洲微软研究院-微软游记

文章目录微软游记黑科技交流会办公区晚餐结束微软游记11月24日,身为一名初出茅庐得技术博主,有幸来到微软亚洲研究院,与CSDN一些博主们共同学习!通过这一天对微软的认识,让我有了更多的想法。今天... 查看详情

北京亚洲微软研究院-微软游记

文章目录微软游记黑科技交流会办公区晚餐结束微软游记11月24日,身为一名初出茅庐得技术博主,有幸来到微软亚洲研究院,与CSDN一些博主们共同学习!通过这一天对微软的认识,让我有了更多的想法。今天... 查看详情

“走进名企”——微软亚洲研究院

...;感谢《新程序员》提供机会,让我们有这次机会走进微软亚洲研究院。今天有幸来到大名鼎鼎的msra,resnet、swintransformer的诞生地。首先参观了微软的研究成果:量子计算、智慧医疗、全息影像等等,让我们看到... 查看详情

“走进名企”——微软亚洲研究院

...;感谢《新程序员》提供机会,让我们有这次机会走进微软亚洲研究院。今天有幸来到大名鼎鼎的msra,resnet、swintransformer的诞生地。首先参观了微软的研究成果:量子计算、智慧医疗、全息影像等等,让我们看到... 查看详情

预见未来:微软亚洲研究院看下一个二十年

(上图为微软全球资深副总裁、微软亚太研发集团主席、微软亚洲研究院院长洪小文)2018年11月8日,微软亚洲研究院迎来了二十周年庆典。1998年11月,微软亚洲研究院正式在北京成立,是微软设在美国本土以外规模最大的研究... 查看详情

代数几何与动力系统(转)

10月16日,记者从浙江大学获悉,浙大数学科学学院青年学者于飞的探索引起国际数学界浓厚兴趣,4位国际著名数学家日前联名发布论文,证明了于飞在黎曼曲面模空间的动力学领域提出的一个重要猜想,并将其推广到更普遍的... 查看详情

云安全与同态加密_调研分析云计算安全领域主要研究成果——byme

...别◆◆主要研究成果◆◆备注(其他参考信息)◆★Microsoft微软ICT公司相对于Google、IBM等推动云计算发展的先驱者,微软在云计算安全的研究方面走在了前面。微软主要分析了云计算所面临的安全方面的挑战并基于微软所 查看详情