正文

7篇顶会论文带你梳理多任务学习建模方法

fareise  fareise  2023-03-09  215

关键词：

如果觉得我的算法分享对你有帮助，欢迎关注我的微信公众号“ 圆圆的算法笔记”，更多算法笔记和世间万物的学习记录～
公众号后台回复“ 多任务”，即可获取相关论文资料集合~

1. 多任务学习介绍

多任务学习（Multitask Learning）是迁移学习的一种方式，通过共享表示信息，同时学习多个相关任务，使这些任务取得比单独训练一个任务更好的效果，模型具有更好的泛化性。在深度学习模型中，多任务学习的最直接实现方法是多个Task共享底层的多层网络参数，同时在模型输出层针对不同任务配置基层Task-specific的参数。这样，底层网络可以在学习多个Task的过程中从不同角度提取样本信息。然而，这种Hard Parameter Sharing的方法，往往会出现跷跷板现象。不同任务之间虽然存在一定的关联，但是也可能存在冲突。联合训练导致不相关甚至冲突的任务之间出现负迁移的现象，影响最终效果。为了解决Hard Parameter Sharing的弊端，学术界涌现了如多专家网络（Multi-expert Network，MoE）等多种解决深度学习中多任务学习问题的方法，是学术界一直以来研究的热点，在工业界也有诸多应用。本文从最基础的多任务学习开始，梳理了近几年来7篇多任务学习顶会相关工作，包括Hard/Soft Parameter Sharing、参数共享+门控、学习参数共享方式等建模方式。

2. Hard/Soft Parameter Sharing

Hard Parameter Sharing通过共享参数的方法对多个任务联合建模，但是从哪一层开始共享、哪一层非共享没有有效的指导信息。Cross-stitch Networks for Multi-task Learning（CVPR 2016）提出Cross-stitch网络实现每层自动学习。Cross-stitch网络对于每个任务有一套单独的参数，在每层都会将两个任务的当前层的表示进行较差，学习两个任务融合后的表示，可以表示为矩阵乘法的形式：

假如某一层不需要进行参数共享，而是Task-specific的，那么参数aAA和aBA就会被学习成接近0的数。Cross-stitch部分的整体结构如下图：

End-to-End Multi-Task Learning with Attention（CVPR 2019，MTAN）提出了一种基于参数共享+每个任务有自己独立Attention模块的多任务模型结构。每个任务的Attention模块从共享参数上进行Task-specific的特征选择。共享参数部分就是一个完整的预测模型（如CV中的VGG），在主模型外部，是每个Task针对每层的Attention模块。某个Task某层的输出即为共享网络中该层的输出和当前Task的Attention分对应元素加权平均，可以表示如下：

Attention的计算由一个单独的网络构成，每层Attention模块的输入为上一层输出的特征（第一层的时候输入为共享网络的输出，后面层的输入为共享网络输出+Attention处理后的Task-specific输出），经过多层卷积等处理，得到该任务在该层对应的Attention Mask。MTAN模型能够在Hard Parameter Sharing的同时，加入Attention对共享参数进行选择，提升了共享参数的泛化能力。

Hard Parameter Sharing的问题在于没有学习不同Task之间的关系，就强行进行了参数共享。在Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser（ACL 2015）中提出了将不同任务之间的参数通过L2正则进行约束的方法。在CV领域，一些研究已经验证了随着网络层数的增加，输出的表示越针对于具体Task，同时可迁移性也越来越差。因此，Learning Multiple Tasks with Multilinear Relationship Networks（ICML 2017）提出了MRN模型，针对接近输出端的全连接分类层的多任务学习优化。MRN模型是历史对多任务学习研究中贝叶斯方法的一个扩展，通过FC层的参数，学习不同任务之间的关系。该方法建立了所有任务的数据(X,Y)、所有任务的分类层参数W的后验概率分布，即求解给定所有任务的特征和Label，后验概率最大的所有任务的参数是什么，可以表示如下方程，其中所有Task的先验概率通过Tensor Normal Distribution求得：

3. 参数共享+门控——MoE模型

2017年Google第一次提出了MoE模型结构：OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER（2017）。模型包括一个门控网络，输入样本特征，输出对每个Expert的选择得分，并将原来每层所有样本共享的参数，变成多组参数，每组参数被称为一个Expert。这篇工作最开始提出并不是为了解决多任务学习问题，而是实现了一种理论模型：在保证运算效率不大幅提升的前提下，通过多组参数增加模型容量，每个样本激活模型中的一部分参数。

在此基础上，Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts（KDD 2018）提出了用多专家网络（MMoE）解决多任务学习问题。网络由多个多任务共享的Expert，以及每个任务独有的Gate网络构成。每一个任务k的具体输出结果表示如下（fi表示第i个专家，gk表示第k个任务的门网络）：

通过这种方式，每个Task的门网络可以基于样本信息学习如何选择一组专家进行预测。MMoE通过这种灵活的模型设计，希望模型能够自动根据底层Task的关系学习Expert参数如何分配。例如，当底层任务关系较弱时，模型能够学到让每个Task只激活一个其对应的Expert，相当于将Experts分割给不同的任务。

然而，MMoE由于所有参数都是所有任务共享的，没有显示定义不同任务的私有参数，当不同任务的关系较弱时，可能会导致不同任务的跷跷板现象，即两个任务无法同时达到最好，一个任务效果提升，伴随着另一个任务效果下降。因此，Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations（Recsys 2020）提出了PLE方法，将模型参数显示的划分为私有部分和公共部分，提升多任务学习的鲁棒性，缓解私有知识和公共知识之间的负向影响。PLE和MMoE的主要区别在于，将多专家分成公共部分和每个Task独有的部分。同时，论文中指出在网络最初阶段并不能真正确定哪些Expert需要共用哪些Expert独有。因此论文提出了多层次的信息提取方法，在网络的最底层增加多个Extraction Layer全局Gate，用来给所有Expert打分，在上层再区分公共和独有部分。其实可以理解底层先通过MoE不区分公共/私有部分提取基础特征，在上层再逐渐将公共/私有部分区分开。

MoE模型结构也被广泛应用于高效进行模型容量扩充，Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity（2021）中就利用MoE结构扩展Transformer模型容量，并设计了多种MoE调优方法。

4. 自动学习参数共享/私有方式

MoE类的方法主要通过参数共享和门控的方式进行多任务学习，PLE提出了将共享参数和私有参数显示区分。那么更进一步，我们能不能让网络自动学习哪些参数应该share，哪些参数应该private呢？AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning（NIPS 2020）提出了学习网络中每组参数的共享/私有方式。对于每一个Task、每一层参数，AdaShare通过一个Policy Network，结合Gumbel Softmax，学习一个当前Task当前层参数是跳过还是复用。这相当于在每个Task的网络中增加了shortcut。为了提升模型性能，文中提出了两个正则化Loss约束学习过程，这两个正则化Loss都和Policy Network学到的打分有关。首先，引入sparsity regularization，通过将Policy为复用的得分加入Loss，让每个Task有更多层跳过，实现模型大小上的缩减，提升运行效率。其次，为了让两个任务Share更多信息，引入两个Task的Policy打分的L1距离，让两个Task学到的Policy越近越好，促进两个Task共享更多的网络参数。AdaShare在训练阶段为了提升收敛速度，采用了多阶段的训练方法。首先让多任务共享所有参数训练几轮，然后随着训练轮数的增加，逐渐从最后几层开始使用Policy进行参数选择。

Sharing Less is More: Lifelong Learning in Deep Networks with Selective Layer Transfer（ICML 2021）中提出通过EM算法选择每个Task在每一层是否进行参数共享，是一种和具体模型结构无关的算法。对于某个Task，定义一个二元向量（Transfer Configuration），每个值表示某一层是使用Task-specific的参数还是共享的参数。本文的核心是求解各个Transfer Configuration的概率分布。在E阶段，评估每种Transfer Configuration的效果（即使用当前配置得到的最终表示在预测任务上的效果）；在M阶段，更新Task-specific参数以及共享参数。具体流程为，对于每一个batch的数据，随机采样一个configuration向量，计算该configuration的效果，并进而得到后验概率。然后执行多步M-step，使用这个Loss更新模型参数。模型的原理示意图和算法流程如下：

5. 总结

本文通过7篇顶会论文介绍了多任务学习建模的核心思路以及学术界的经典工作，从最开始的Hard/Soft Parameter Sharing，到MoE模型，再到最近提出的自动学习参数共享/私有方式等方法，从不同角度介绍了多任务学习的核心思路，希望对大家在实际工作或研究中有所帮助。

如果觉得我的算法分享对你有帮助，欢迎关注我的微信公众号“ 圆圆的算法笔记”，更多算法笔记和世间万物的学习记录～
公众号后台回复“ 多任务”，即可获取相关论文资料集合~

最牛的nlp都在研究啥？统计400多篇顶会论文发现：统一泛化标准是关键

Alex詹士发自凹非寺量子位|公众号QbitAI一篇NLP （自然语言处理）研究综述文章火了。根据paperswithcode统计，此文目前已经获赞超800，转发超200次。来自MetaAI、亚马逊、剑桥大学和纽约大学等的研究人员，针对NL... 查看详情

港科大硕士iccv论文被指抄袭，导师不知情，二作震惊求撤稿，网友：其余12篇顶会都查查...

丰色发自凹非寺量子位报道|公众号QbitAI“几乎一模一样！”最近，顶会ICCV接收的一篇论文被指控抄袭顶会ICML上的一篇！而“抄袭者”是两位来自中国高校的硕博生。一经爆料，就迅速在知乎、Reddit等平台上引发... 查看详情

他2年拿下博士学位，发表11篇顶会论文！浙大校友李旻辰斩获siggraph最佳博士论文奖...

金磊发自凹非寺量子位报道|公众号QbitAI连续四年，SIGGRAPH最佳博士论文奖，被华人学者拿下。今年，浙大校友、UCLA数学系博士后李旻辰斩获殊荣。然而随之浮出的，可不单单是这份荣耀，还有他那开挂般的学... 查看详情

对比学习顶会论文系列-3-2

文章目录一、特定任务中的对比学习1.2摘要生成中的对比学习——SimCLS:ASimpleFrameworkforContrastiveLearningofAbstractiveSummarization1.研究出发点2.研究方法3.实验部分4.总结与反思1.3主题检测中的对比学习——ModelingDiscriminativeRepresentationsforO... 查看详情

13篇顶会，25岁成985高校博导，入职半年发icml，网友：万点暴击

...NTU博士毕业，当上了985高校博导。半年时间还发了一篇顶会，怎么讲？卷，还是卷...今年1月，重庆大学计算机学院引进了最年查看详情

用ai打破编解码器内卷，高通最新几篇顶会论文脑洞有点大

萧箫发自凹非寺量子位报道|公众号QbitAI用AI搞视频编解码器，现在路子有点“野”。插帧、过拟合、语义感知、GAN……你想过这些“脑洞”或AI算法，也能被用到编解码器上面吗？例如，原本的算法每帧压缩到16.4K... 查看详情

带你读顶会论文丨基于溯源图的apt攻击检测

摘要：本次分享主要是作者对APT攻击部分顶会论文阅读的阶段性总结，将从四个方面开展。本文分享自华为云社区《[论文阅读](10)基于溯源图的APT攻击检测安全顶会总结》，作者：eastmount。一.背景知识1.什么是APT攻击？APT攻击（... 查看详情

13篇顶会！25岁成985高校博导！

点上方人工智能算法与Python大数据获取更多干货在右上方 ··· 设为星标 ★，第一时间获取资源仅做学术分享，如有侵权，联系删除转载于：科研大匠综合冯磊自个人主页、重庆大学官网、重庆大学计算机学院2... 查看详情

10篇顶会paper，入选微软学者，上海交大吴齐天的科研思考！

作者吴齐天，上海交通大学，导师严骏驰大家好，我叫吴齐天，今天主要是跟大家分享一下我的科研经历，后面会有一个简单的经验总结。首先和大家介绍一下我的经历，我现在是交大计算机系的博士生&#x... 查看详情

多目标建模总结

...目标建模的常用方法主要可以分为：多模型的融合多任务学习底层共享表示的优化任务序列依赖关系建模多模型的融合是根据不同的指标训练不同的模型，最终对多个模型的结果做融合；多任务学习是目前处理多目标... 查看详情

带你读ai论文丨针对文字识别的多模态半监督方法

摘要：本文提出了一种针对文字识别的多模态半监督方法，具体来说，作者首先使用teacher-student网络进行半监督学习，然后在视觉、语义以及视觉和语义的融合特征上，都进行了一致性约束。本文分享自华为... 查看详情

13篇顶会！25岁成985高校博导！

[顶会论文]：icra2020机器人学习相关论文汇总

[1].BenchmarkforSkillLearningfromDemonstration:ImpactofUserExperience,TaskComplexity,andStartConfigurationonPerformance作者：M.AsifRana, DaphneChen, S.RezaAhmadzadeh, JacobWilliams, V 查看详情

顶会vldb‘22论文解读：多元时序预测算法metro

摘要：本文提出了一个端到端的MTS预测框架METRO。METRO的核心思想是利用多尺度动态图建模变量之间的依赖关系，考虑单尺度内信息传递和尺度间信息融合。本文分享自华为云社区《VLDB'22METRO论文解读》，作者：... 查看详情

transformer赋能产业级实时分割！neurips2022顶会成果rtformer带你一探究竟！

图像分割作为计算机视觉的三大任务之一，是智慧城市、工业制造、自动驾驶等领域的一项关键技术。相比图像分类和目标检测任务，图像分割预测输出目标在像素级别的精细信息，在计算机视觉任务中具有不可替代... 查看详情

多智能体强化学习（marl）近年研究概览｛learningcooperation（协作学习）agentsmodelingagents（智能体建模）｝

...总结】【二】最新多智能体强化学习文章如何查阅｛顶会：AAAI、ICML｝【三】多智能体强化学习（MARL）近年研究概览｛Analysisofemergentbehaviors（行为分析)_、Learningcommunication（查看详情

最新多智能体强化学习文章如何查阅｛顶会：aaaiicml｝

深度学习中如何平衡多个loss？多任务学习自动调整lossweight解决方案(代码片段)

...都受益于具有多重回归和分类目标的多任务学习。每年的顶会都会出现不少关于loss优化的文章，还有大量的新loss定义方式，眼花缭乱。因此，一个深查看详情