cvpr2022|处理速度仅用0.2秒!港科大&腾讯ailab开源基于gan反演的高保真图像编辑算法...(代码片段)

Charmve Charmve     2022-11-29     786

关键词:

点击上方“迈微AI研习社”,选择“星标★”公众号

重磅干货,第一时间送达

转载自:极市平台   作者丨Tengfei Wang

后台回复加群”进入—> CV 微信技术交流群

迈微导读

 

本文介绍了一篇来自港科大和腾讯 AI Lab已被CVPR 2022收录的工作。工作提出了一种新颖的高保真GAN反演框架,该框架能够在保留图像特定细节(例如背景、外观和照明)的情况下进行属性编辑。不仅处理速度能够达每张图 0.2s,还能保证编辑后图像的高保真度与高质量。

  • 论文:https://arxiv.org/abs/2109.06590
  • 代码:https://github.com/Tengfei-Wang/HFGI

  • 主页:https://tengfei-wang.github.io/HFGI/

  • 视频:https://www.bilibili.com/video/BV1Xq4y1i7ev

只需一张照片,这个AI算法就能按照用户需求快速编辑图像属性,下面是AI脑补出照片微笑的样子:

再也不用担心拍照时把握不住微笑的时机了呢。除了表情,年龄、姿态也可以随心所欲变变变:

而且编辑后的图像可以高保真地保留原图的细节,比如背景、光照、装扮。

再从网络上找几张大家熟悉的名人照片试试,十年后的马斯克,假笑男孩Lecun,还有… … 涂了口红的约翰逊?

该项研究已经被CVPR 2022收录。

一、基于GAN Inversion的高保真图像编辑

GAN inversion技术最近被广泛研究,它可以将一张照片映射到一个GAN生成器的隐空间中,从而利用StyleGAN强大的能力对图片进行编辑。目前的GAN inversion方法分为三类:

  1. 基于编码器(encoder-based) 这类方法编辑图片的速度很快 (每张图 < 1s),但是编辑后的图片会丢掉很多原图中的细节,保真度低。

  2. 基于优化 (optimization-based) 这类方法对每张照片分别迭代,保真度高,但速度很慢(每张图几分钟)。

  3. 混合方法 这类方法先用编码器得到一个初始化的隐变量,然后对每个隐变量优化,速度介于基于第一类和第二类之间 (每张图数十秒至数分钟),但依旧缓慢,影响实用性。

这就导致大家在选择模型的时候需要做出权衡和取舍,是选择更快的速度呢,还是选择更高的保真度呢?对于有选择困难的小伙伴来说,简直太纠结了!

那么,本篇论文是如何选择速度和质量的呢?答案是:全都要。养一只会捕鱼(丢失的细节)的熊(补充编码器),就可以鱼和熊掌一块得到啦。在快速处理(每张图 0.2s)的同时,又能保证编辑后图像的高保真度高质量

二、方法

在介绍算法之前,作者先分析了基于编码器的方法进行重建或者编辑保真度低的原因。这里提到信息论中大名鼎鼎的率失真理论(Rate-Distortion theory),即对于一个编码-解码系统,隐编码(latent code)的bit-rate对重建信号的保真度(重建信号与源信号的distortion)存在限制。

也就是说,之前的编码器压缩得到的隐编码很小(low-rate),通常是1x512或者18x512,这就会导致在生成器重建过程中必然会损伤掉一些信息,造成较大的distortion,使得重建或者编辑后的图像和原图相比发生失真。

那么,是不是我们直接增大编码器输出隐编码的大小(high-rate),问题就解决了呢?答案是:yes and no。这样做确实可以提升重建图像的保真度,但是我们的目的是对图像进行编辑而不是重建。Low-rate隐编码由于是通过高度压缩的,所以可以编码一些高级、丰富、解耦的语义,这些隐编码在隐空间里通过操控(vector arithmetic)可以方便的编辑图像属性。但对于high-rate隐编码,冗余会造成隐编码耦合,而且编码通常缺乏语义信息(low-level),这就导致图像难以有效编辑。

为了解决这个问题,本文提出了一种名为信息参照(information consultation)的方法,同时利用low-rate和high-rate隐编码。该模型包括两个编码器,基础编码器压缩低率隐编码,用于保证图像的可编辑性;参照编码器对低率重建图像的失真信息进行补充编码,得到一个高率的隐编码,补充丢失的细节信息。

这两部分隐编码在生成器中通过参照融合层(consultation fusion)整合,共同用于图像生成。参照融合层参照下图:

由于缺少成对的编辑图像进行训练,作者还提出了相应的自监督训练方法以及自适应失真校正模块(ADA)。

三、实验结果

论文提供了人脸和车辆照片上的对比结果。首先是和基于编码的方法的对比:

然后是和优化方法以及混合方法的对比:

以及定量对比:

四、更多结果

该方法不仅可以用于图像编辑,也可以用来做视频的编辑,更多结果可以在作者的主页找到:https://tengfei-wang.github.io/HFGI/

五、在线试玩

这么好玩的方法,想不想用自己或者朋友的照片来体验一下?作者提供了一个online demo,可以自己上传图片或者用摄像头拍照来进行编辑。

在线试玩地址:https://replicate.com/tengfei-wang/hfgi


 

 

后台回复加群”进入—> CV 微信技术交流群


 

 

绘图神器下载

后台回复:绘图神器,即可下载绘制神经网络结构的神器!
PyTorch 学习资料下载

后台回复:PyTorch资料,即可下载访问最全的PyTorch入门和实战资料!
专栏推荐下载

专栏订阅:https://blog.csdn.net/charmve/category_10595130.html

迈微AI学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文

速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,

加入CVer学术交流群,已汇集数千人!

▲扫码进群

迈微AI研习社

微信号: MaiweiE_com

GitHub: @Charmve

CSDN、知乎: @Charmve

投稿: yidazhang1@gmail.com

主页: github.com/Charmve

整理不易,请点赞和在看

高性能云服务器 精品线路独享带宽,毫秒延迟,年中盛惠 1 折起

cvpr2022|cvpr2022最全整理,cvpr2022下载链接,cvpr2022全部论文代码

CVPR是IEEE ConferenceonComputerVisionandPatternRecognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学... 查看详情

cvpr2022|cvpr2022最全整理,cvpr2022下载链接,cvpr2022全部论文代码

CVPR是IEEE ConferenceonComputerVisionandPatternRecognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学... 查看详情

2.cvpr2022-papers-with-code-demo(cvpr2022论文下载)

CVPR2022-Papers-with-Code-Demo☪️CVPR2021论文下载:https://pan.baidu.com/share/init?surl=gjfUQlPf73MCk4vM8VbzoA密码:aicv 查看详情

腾讯优图&港科大提出一种基于深度学习的非光流hdr成像方法

目前最好的高动态范围(HDR)成像方法通常是先利用光流将输入图像对齐,随后再合成HDR图像。然而由于输入图像存在遮挡和较大运动,这种方法生成的图像仍然有很多缺陷。最近,腾讯优图和香港科技大学的研究者提出了一种... 查看详情

70篇cvpr2022论文解读汇总

编辑丨极市平台导  读 本文汇总了CVPR2022放出的一些工作的解读,希望能够帮助大家更好的学习。 所有CVPR的论文整理都汇总在了我们的Github项目中,该项目目前已收获8900Star,欢迎大家关注:​​https://github.com/ext... 查看详情

cvpr2022最新350篇论文分方向汇总/代码

参考:CVPR2022全面盘点:最新350篇论文分方向汇总/代码/解读/直播/项目(更新中)-知乎资料:官网链接:http://CVPR2022.thecvf.com会议时间:2021年6月19日-6月24日相关问题:如何评价CVPR2022的论文接收结... 查看详情

cvpr2022结果出炉,最全论文下载及分类汇总(更新中)

...、图像分割、目标跟踪、医学影像、3D、模型压缩、图像处理、姿态估计、文本检测等,具体细分研究方向为:由于编辑器的限制,上述最新版本的论文汇总和下载请大家前往:CVPR2022最全整理:论文分方向汇... 查看详情

cvpr2022有什么值得关注的论文?

CVPR2022有什么值得关注的论文?知乎上的,值得一看! 查看详情

cvpr2022部分行人重识别

转载自CVPR2022【行人/车辆重识别】相关论文和代码(更新中...)-知乎PersonRe-identification1.LearningwithTwinNoisyLabelsforVisible-InfraredPersonRe-Identification2.Part-basedPseudoLabelRefinementforUnsupervisedPerso 查看详情

cvpr2022最新350篇论文分方向汇总/代码

参考:CVPR2022全面盘点:最新350篇论文分方向汇总/代码/_等待破茧的博客-CSDN博客_2022cvpr资料:官网链接:http://CVPR2022.thecvf.com会议时间:2021年6月19日-6月24日相关问题:如何评价CVPR2022的论文接收结果?... 查看详情

记香港科技大学之旅

简介在港科大两周的airship课程已经完结了,从去年看到同学老曹在港科大发的朋友圈,就觉得这门课程应该挺有趣的。于是便报了名,学完了网上的课程,通过了筛选,来到了港科大,期间差点因为签注延误,无法来到这里,... 查看详情

cvpr2022最新350篇论文分方向汇总/代码

参考:CVPR2022全面盘点:最新350篇论文分方向汇总/代码/解读/直播/项目(更新中)-知乎资料:官网链接:http://CVPR2022.thecvf.com会议时间:2021年6月19日-6月24日相关问题:如何评价CVPR2022的论文接收结... 查看详情

打打字就能指挥算法视频抠图,transformer掌握跨模态新技能,精度优于现有模型丨cvpr2022

都说Transformer适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理****文本和视帧,提出了一个结构更简单、处理速度更快(每秒76帧)的视频实例分割框架。这个框架只需一串文本描述࿰... 查看详情

港科大硕士iccv论文被指抄袭,导师不知情,二作震惊求撤稿,网友:其余12篇顶会都查查...

丰色发自凹非寺量子位报道|公众号QbitAI“几乎一模一样!”最近,顶会ICCV接收的一篇论文被指控抄袭顶会ICML上的一篇!而“抄袭者”是两位来自中国高校的硕博生。一经爆料,就迅速在知乎、Reddit等平台上引发... 查看详情

cvpr2022用于域适应语义分割的域无关先验

摘要:本文给大家分享一篇我们在CVPR2022上发表的paper:Domain-AgnosticPriorforTransferSemanticSegmentation。文章提出了一种图像域无关的先验,可以有效地提升域适应语义分割的精度。本文分享自华为云社区《EI盘古研究分享【... 查看详情

论文速递cvpr2022-全局跟踪transformers(代码片段)

【论文速递】CVPR2022-全局跟踪Transformers【论文原文】:GlobalTrackingTransformers论文地址:https://arxiv.org/abs/2203.13250代码:https://github.com/xingyizhou/GTR博主关键词:多目标跟踪,transformerÿ 查看详情

cvpr2022:generalizablecross-modalitymedicalimagesegmentationviastyleaugmentationanddualnorm

CVPR2022:GeneralizableCross-modalityMedicalImageSegmentationviaStyleAugmentationandDualNormalization基于样式增强和双重归一化的通用跨模态医学图像分割0.摘要1.概述2.方法2.1.定义和概述2.2.风格增强模块2.3.双归一化基础网络2.4.基于风格的路径选择2.5.... 查看详情

2023计算机领域顶会(a类)以及acl2023自然语言处理(nlp)研究子方向领域汇总

...包含26个领域,代表着当前前计算语言学和自然语言处理研究的不同方面。每个领域都有一组相关联的关键字来描述其潜在的子领域,这些子领域并非排他性的,它们只描述了最受关注的子领域,并希望能够对该... 查看详情