论文阅读2022年最新迁移学习综述笔注(transferabilityindeeplearning:asurvey)

囚生CY 囚生CY     2022-12-01     632

关键词:

  • 英文标题:Transferability in Deep Learning: A Survey
  • 中文标题:深度学习中的可迁移性综述
  • 论文下载链接:arxiv@2201.05867

序言

这篇综述整体来说还是比较详实的,迁移学习本身在人工智能中的应用是非常广泛的,因此很容易与其他方法相结合,原文第三大节关于适应性的部分是非常关键的,也是本笔注的重点内容,理论性极强,其他两部分相对要水一些,很多老生常谈的东西就不作记录了。个人感觉是比较适合有一定机器学习基础,然后希望巩固迁移学习相关知识的人进行阅读理解。


摘要

The success of deep learning algorithms generally depends on large-scale data, while humans appear to have inherent ability of knowledge transfer, by recognizing and applying relevant knowledge from previous learning experiences when encountering and solving unseen tasks. Such an ability to acquire and reuse knowledge is known as transferability in deep learning. It has formed the long-term quest towards making deep learning as data-efficient as human learning, and has been motivating fruitful design of more powerful deep learning algorithms. We present this survey to connect different isolated areas in deep learning with their relation to transferability, and to provide a unified and complete view to investigating transferability through the whole lifecycle of deep learning. The survey elaborates the fundamental goals and challenges in parallel with the core principles and methods, covering recent cornerstones in deep architectures, pre-training, task adaptation and domain adaptation. This highlights unanswered questions on the appropriate objectives for learning transferable knowledge and for adapting the knowledge to new tasks and domains, avoiding catastrophic forgetting and negative transfer. Finally, we implement a benchmark and an open-source library, enabling a fair evaluation of deep learning methods in terms of transferability.


文章目录


1 导论 Introduction

  • 预训练本身就是一种迁移学习。

  • 迁移学习分为两阶段:预训练(pre-training)与适应(adaptation)。前者关注一般的可迁移性(generic transferability),后者关注具体的可迁移性(specific transferability)。


1.1 术语 Terminology

数学标记具体含义
X \\mathcal X X输入空间
Y \\mathcal Y Y输出空间
f f f f : X → Y f:\\mathcal X\\rightarrow \\mathcal Y f:XY是需要学习的标注函数
l l l l : Y × Y → R + l:\\mathcalY\\times \\mathcalY\\rightarrow \\R_+ l:Y×YR+是给定的损失函数
D \\mathcal D D X \\mathcal X X上的某个未知分布
D ^ \\mathcal\\hat D D^独立同分布采样自 D \\mathcal D D的样本 x 1 , . . . , x n \\\\bf x_1,...,\\bf x_n\\ x1,...,xn
P ( ⋅ ) P(\\cdot) P()定义在 X \\mathcal X X上的事件概率
E ( ⋅ ) \\mathbb E(\\cdot) E()随机变量数学期望
U \\mathcal U U上游数据
S \\mathcal S S下游数据的源领域
T \\mathcal T T下游数据的目标领域
t ∗ t_* t ∗ * 领域的任务, ∗ * 可以取 T , S , U \\mathcalT,S,U T,S,U
H \\mathcal H H假设空间(可以理解为模型集合)
h h h假设空间中的一个假设(下文中如不作特殊说明,假设和模型含义相同)
ψ \\psi ψ特征生成器
θ \\theta θ假设参数
x \\bf x x模型输入
y \\bf y y模型输出
z \\bf z z隐层特征激活生成结果
D D D用于区分不同分布的辨识器

定义 1 1 1(可迁移性)

给定源领域 S \\mathcalS S的学习任务 t S t_\\mathcalS tS以及目标领域 T \\mathcal T T的学习任务 t T t_\\mathcalT tT可迁移性(transferability)指从 t S t_\\mathcal S tS中获取可迁移的知识,将获取到的知识在 t T t_\\mathcal T tT中进行重用并能够使得 t T t_\\mathcal T tT泛化误差降低,其中 S ≠ T \\mathcal S\\neq \\mathcal T S=T t S ≠ t T t_\\mathcal S\\neq t_\\mathcal T tS=tT


1.2 概述 Overview

本文分三部分展开:

  1. 预训练(Pre-training):关于一些重要的迁移模型架构,有监督的预训练与无监督的预训练方法综述。这部分相对浅显,只对重点内容进行摘要记录。
  2. 适应性(Adaptation):重点在任务适应性(task adaptation)与领域适应性(domain adaptation),这部分理论性极强,尤其是领域适应性部分汇总了大量的定理与统计结果,感觉就不是同一个人写的。
  3. 评估(Evaluation):本文提出一个开源包用于迁移学习的通用算法以及评估,项目地址在GitHub@TLlib


2 预训练 Pre-Training

2.1 预训练模型 Pre-Training Model

  • 一般来说,预训练任务学习的好坏直接影响预训练模型在下游任务中的应用性能。

  • 一般来说,预训练会在非常大量的数据集上进行,因此如RNN和CNN这种做了局部连接假设的模型架构通常不会被作为预训练模型架构(因为数据足够多,不需要简化模型架构),目前主流的基本伤都是基于Transformer的大规模预训练模型。相较于RNN和CNN,Transformer对输入数据的结构几乎不作任何假定,即可以用于处理更广泛的数据类型。

  • 预训练模型在迁移学习中的发展历程(如Figure 3所示):

  • Figure 4中左图是直接训练时模型参数搜索的过程,右图是预训练迁移后的模型参数搜索过程,意思是说预训练的本质是缩小了模型参数的搜索范围(不过似乎也可以理解为是找到了一个更好的初始点):


2.2 有监督的预训练模型 Supervised Pre-training Model

  • 有监督的预训练目的是在大规模标注数据上训练获得预训练模型,然后再迁移以增强下游任务(如Figure 5所示)。

  • 标准的有监督的预训练在标注数据量重组的情况下是非常有用的,但是它有时候对于对立样本(adversarial examples)的存在是极其敏感的,这可能会影响迁移的鲁棒性。因此本部分将会着重介绍另外两种有监督的预训练方法。


2.2.1 元学习 Meta Learning

  • 所谓元学习(meta-learning),通俗而言即学习如何学习,以提升迁移的效率。其核心在于将元知识(meta knowledge) ϕ \\phi ϕ与模型融合,元知识 ϕ \\phi ϕ可以捕获不同学习任务的本质属性(intrinsic properties),又称为元训练(meta-training)。当需要解决一个新任务时,学习到的元知识救可以帮助目标模型参数 θ \\theta θ快速适应到新任务中,这个过程称为元测试(meta-testing)。

  • 如Figure 6所示,左图是为了模拟元测试过程中的快速适应条件,将元训练数据构造成一个由 n n n个学习任务组成的集合,每个任务分别对应一个学习任务 i ∈ [ n ] i\\in[n] i[n],包含用于适应此任务的训练集 D i t r \\mathcalD_i^\\rm tr Ditr和用于评估的测试集 D i t s \\mathcalD_i^\\rm ts Dits,右图则是说明元训练的目标函数是一个二级优化问题:
    ϕ ∗ = argmax ϕ ∑ i = 1 n log ⁡ P ( θ i ( ϕ ) ∣ D i t s ) , where  θ i ( ϕ ) = argmax θ log ⁡ P ( θ ∣ D i t r , ϕ ) (1) \\phi^*=\\textargmax_\\phi\\sum_i=1^n\\log P(\\theta_i(\\phi)|\\mathcalD_i^\\rm ts),\\quad\\textwhere \\theta_i(\\phi)=\\textargmax_\\theta\\log P(\\theta|\\mathcalD_i^\\rm tr,\\phi)\\tag1 ϕ=argmaxϕi=1nlogP(θi(ϕ)Dits),where θi(ϕ)=argmaxθlogP(θDitr,ϕ)(1)
    这里内层优化用于更新模型参数 θ \\theta θ,外层优化用于寻找更好的元知识用于迁移,元学习的关键就在于如何构建元知识的形式。

  • 基于内存的元学习(memory-based meta-learning):

    控制器将从训练数据 D i t r \\mathcalD_i^\\rm tr Ditr中挖掘得到的知识写入内存,并从内存中读取知识以使用基础学习器 θ \\theta θ在测试数据 D i t r \\mathcalD_i^\\rm tr Ditr上进行预测,控制器的参数将不断更新。感觉上这个并不是什么很新奇的方法,本质上你在做项目时预先存好的一些预处理数据都可以视为是基于内存的元学习

    如参考文献 [ 150 ] [150] [150]提出的内存增强神经网络(memory-augmented neural networks,MANN)将绑定样本表示类信息(bound sample representation-class label information)存储在外部内存中,以用于检索作为特征来进行预测。参考文献 [ 121 ] [121] [121]则是提出另一种内存机制,基础学习器用于提供关于当前任务的状态,元学习器则与外部内存交互以生成用于基础学习器的模型参数,以快速学习新任务。

    基于内存的元学习对于如少射分类(few-shot classification)以及强化学习的下游任务是比较有优势的,但是需要设计黑盒架构来合并内存机制,往往我们并不知道到底存储了什么东西,以及为什么存储的东西是有益于模型迁移的。

  • 基于优

    论文阅读2022年最新迁移学习综述笔注(transferabilityindeeplearning:asurvey)

    ...eepLearning:ASurvey中文标题:深度学习中的可迁移性综述论文下载链接:arxiv@2201.05867序言这篇综述整体来说还是比较详实的,迁移学习本身在人工智能中的应用是非常广泛的,因此很容易与其他方法相结合,... 查看详情

    最新《贝叶斯迁移学习》综述论文

    ...悉尼科技大学的学者发布了最新《贝叶斯迁移学习》综述论文,概述了迁移学习概率图模型综述论文。摘要迁移学习是指从源领域提取可迁移知 查看详情

    deeplearningforgenericobjectdetection:asurvey-论文阅读笔记

    ...检测的深度学习:综述//2022.7.12上午8:27开始阅读笔记论文地址DeepLearningforGenericObjectDetection:ASurvey|SpringerLink论文贡献本文的目标是全面综述深度学习技术在这一领域的最新成就,文中总结了目标检测领域 查看详情

    最新《网络表示学习》综述论文

    点上方人工智能算法与Python大数据获取更多干货在右上方 ··· 设为星标 ★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于:专知摘要网络表示学习(NRL)促进了传统的社交网络、知识图以及复杂... 查看详情

    收藏|最新《图神经网络》综述论文35页pdf209篇文献

    ...来自印度国家理工学院的学者发布了《图神经网络》综述论文.摘要在过去十年左右的时间里,我们见证了深度学习让机器学习领域重新焕发活力。它以最先进的性能解 查看详情

    收藏|最新《图神经网络》综述论文35页pdf209篇文献

    ...来自印度国家理工学院的学者发布了《图神经网络》综述论文.摘要在过去十年左右的时间里,我们见证了深度学习让机器学习领域重新焕发活力。它以最先进的性能解 查看详情

    迁移学习综述

    参考论文:ASurveyonTransferLearning1、Introduction  在机器学习和数据挖掘中有一个很普遍的假设就是训练数据和测试数据来源于统一特征空间并服从相同的分布。而当测试数据分布发生改变之后,我们又不得不从新收集同分布的训... 查看详情

    深度学习文献阅读笔记

    ...中的应用(VisualAttentionwithDeepNeuralNetworks)(英文,会议论文。2015年,IEEE检索)  这篇文章主要讲CNN在显著性检測领域的应用。    22、深度学习研究进展(中文,期刊,2015年。知网)  深度学习方面的一篇综述性文章... 查看详情

    北航最新综述|深度学习事件抽取

    ...的研究人员发布了最新关于基于深度学习的事件抽取综述论文,详细阐述了事件抽取的任务定义、范式和模型,非常值得关注!基于模式的事件提 查看详情

    综述|最新双曲深度神经网络综述论文

    在公众号【计算机视觉联盟】后台回复【9076】获取我的AI学习笔记;我的微信:Kingsplusa;  --by 王博Kings,985AI博士,CSDN博客专家,华为云专家HyperbolicDeepNeuralNetworks:ASurvey 摘要:近年来,由于双... 查看详情

    港中文最新《多模态元学习》综述

    ...0c;来自香港中文大学等学者发布了《多模态元学习》综述论文,值的关注摘要作为一种比传统机器学习方法更有效的训练框架,元学习获得了广泛的欢迎。然而 查看详情

    最新综述!nlp中的transformer预训练模型

    ...可避免从头开始训练下游任务。这篇详尽调查T-PTLM的综述论文首先将简要介绍自监督学习。接下来将解释多个核心概念,包括预训练、预训练方法、预训练任务、嵌入和下游任务适应方法。接下来,文章将为T-PTLM给出一... 查看详情

    深度学习系列45:图像恢复综述

    从本期开始,会探索图像恢复领域的论文和代码。本次先阅读一下综述。传统方法一个很大的假设是我们相信我们可以在缺失区域之外找到相似的patch,但是如果缺失区域之外没有任何类似的patch,就没有办法正确修... 查看详情

    最新顶刊tpami《深度学习hdr成像》综述论文

    ...#xff0c;联系删除转载于:专知深度HDR成像方法最新综述论文,值得关注!高动态范围(HDR)成像是一种允许广泛动态范围的曝光的技术,这在图像处理、计算机图形学和计算机视觉中很重要。近年来,利用深度学... 查看详情

    视频异常检测综述-论文阅读deepvideoanomalydetection:opportunitiesandchallenges

    来源: Ren,Jing,etal.“DeepVideoAnomalyDetection:OpportunitiesandChallenges.”2021InternationalConferenceonDataMiningWorkshops(ICDMW),Dec.2021.Crossref,https://doi.org/10.1109/icdmw53433.2021.00125.文章连接:https://arxiv.org/abs/2110.050861.摘要异常检测在各种研究环... 查看详情

    论文笔注适用于一般选择模型(产品组合优化)的启发式算法

    论文标题:AssortmentOptimizationUnderGeneralChoice中文标题:一般选择下的产品组合优化论文下载链接:SSRN,DOI序言本文为SrikanthJagabathula于2014年以独立作者身份发表的论文笔注,有趣的是SrikanthJagabathula在2011年还曾... 查看详情

    计算机视觉系列最新论文(附简介)

    计算机视觉系列最新论文(附简介)目标检测1. 综述:深度域适应目标检测标题:DeepDomainAdaptiveObjectDetection:aSurvey作者:WanyiLi,PengWang链接:https://arxiv.org/abs/2002.06797本文共梳理了40篇相关文献,由中科院自动化所学者发布。基... 查看详情

    2022年最新javaee学习路线图

    目录1.java语言核心2.java与数据库交互技术3.javaWeb前后端交互技术基础4.javaEE框架阶段 查看详情