icassp2021:端到端的图像编码方法

Dillon2015 Dillon2015     2022-12-27     261

关键词:

本文来自ICASSP2021论文《Image Coding For Machines: An End-to-end Learned Approach》

基于深度学习的计算机视觉在图像领域应用越来越广泛,每天产生的图像数量爆发式增长,传统的图片编码器是面向人眼视觉而不是机器处理。本文提出基于神经网络(NN)的端到端学习的面向机器的图像编码器(Image Coding for Machines,ICM)。

本文算法

本文ICM模型的优化目标是机器任务的性能而不是像素保真度,模型包含一个自编码器,一个概率模型和一个熵编码器。流程如Fig.1所示,输入的未压缩图像x首先被基于神经网络的编码器E变到新的数据空间y=E(x;theta),然后y被量化y^=Q(y),最后被熵编码器EE进行无损压缩,其中熵编码器使用了概率模型进行概率分布的估计。码流在解码端首先使用熵解码器ED进行熵解码,然后由基于神经网络的解码器解码x^=D(y^;theta)。

自编码器

不像普通的自编码器,本文提出的自编码器目的不是重建输入图像,而是为了解码出数据矢量能提供好的机器处理效果,同时编码器的输出能被熵编码器高效压缩。它们可以分别表示为机器处理损失L_task和码率损失L_rate。

用于机器处理的神经网络模型是预训练好的且固化不变的,模型输入是图像格式(三通道),所以解码器的输出向量格式需要和图像相同。

论文中编码器和解码器架构使用CNN,如Fig.2所示,其中S代表stride,c代表输出通道数。

为了节省编码解码时间和计算资源,CNN中间层和最后层滤波器数量都很少。同时自编码器的优化使用L_task和L_rate损失。

概率模型

对于量化输出y^根据其概率估计进行熵编码,如果概率估计和它真实的概率分布一致则其香农熵最小。码字长度r可以按照香农交叉熵估计如下:

为了使r最小,概率模型需要学习分布p_y^,文中使用的模型是高斯混合模型,通过学习其参数来拟合分布。为了解压y^,携带先验信息的码流z^被发送到解码端。最终L_rate由这两段码流总长度计算,

概率模型在端到端的训练中和自编码器进行联合优化。在训练过程在量化步骤被加入均匀噪声替代,这是因为量化是不可微的,而训练是基于梯度的。

训练策略

论文使用了两种CV模型来处理不同任务:Faster R-CNN进行目标检测,Mask R-CNN进行实例分割。对这两种任务训练分别进行。

图像编码通常使用RDO进行优化:J=R+lambda*D。在论文在扩展了失真D的含义,增加了L_task,最终训练的损失函数为:

w_rate,w_mse,w_task分别表示权重,其中训练过程中权重动态变化。

训练数据都是自然图像,论文首先训练一个仅包含L_mse的基础模型(w_rate=w_task=0,w_mse=1),然后在基础模型上保持w_mse=1逐步调大w_rate和w_task,如Fig.3所示。最终w_rate和w_task占据优势,使得系统朝着机器任务方向优化。

实验结果

论文ICM系统面向两个机器任务:示例分割和目标检测。使用未压缩的cityscapes数据集训练和测试模型。由于CV模型是在COCO数据集上预训练的,所以评测效果时只在两个数据集共有的类别上:汽车、人、自行车、公交车、货车、火车和摩托车。

评测方法和基准:对于每种压缩方法的评测是基于码率和在验证集500幅图像上的机器处理表现。使用bpp作为码率指标,mAP作为机器处理评价指标。基准使用VTM-8.2,All-Intra配置。

为了达到不同码率,使用28组参数编码验证集,由QP=22,27,32,37,42,47, 52和降采样率100%,75%,50%,25%组合成。这形成了28组编码的验证集,对于降采样的图像还要上采用为原始尺寸。

权重在训练过程中动态变化,具体如下:

其中e表示epoch,(p1,p2,p3,p4)=(50,75,120,165),

最终的Rate-Performance 曲线如Fig.4所示。本文方法的曲线是在训练每完成一个epoch后在验证集上验证一次得到一个数据点。

如表1所示,文中方法在目标检测上评价节省37.87%码率,在实例分割上评价节省32.90%码率。

Fig.5是输出的重建图像,可以看见ICM对于那些对于机器处理不重要的区域压缩更严重,而低码率区域则很好的保留了物体的形状和边缘等。

感兴趣的请关注微信公众号Video Coding

端到端的方法

摘要:纯粹的端到端方法,是指根据预先给定的训练数据,即地震记录-速度模型对,训练一个深度网络.这本质上是一个离线(offline)的方式.训练获得的模型,可以很快进行预测.1.基本思想可以把反演看作是图片的“风格迁移”,类似于将... 查看详情

端到端图像编码和vvc的结合

...》简介提案提出了一种混合编码方法,对视频I帧使用端到端的图像编码器编码,P和B帧使用VVC编码,如Fig.1,其中P和B帧内的intra块还是使用VVC编码。基于神经网络的端到端图像编码器 查看详情

icassp2021:av1帧内模式编码改进

本文来自ICASSP2021论文《IMPROVEDINTRAMODECODINGBEYONDAV1》AV1帧内预测简介在AV1中帧内预测模式分为角度帧内预测模式和非角度帧内预测模式,和VP9一样有8种角度帧内预测模式,在每种方向上还有7个delta角度(-3~+3)用... 查看详情

论文阅读一种端到端的对抗生成式视频数字水印算法

2021.07中国科技论文【摘要】提出了一种端到端的对抗生成式视频盲水印嵌入提取算法。该算法主要由编码器和解码器组成,编码器用于生成包含水印信息的视频,解码器用于提取视频中所包含的水印信息。不同于传统的基于频域或... 查看详情

icassp2021:通过码率限制降低me复杂度

本文来自ICASSP2021《RelyingonaRateConstrainttoReduceMotionEstimationComplexity》运动估计ME是视频编码中最耗时的部分之一,本文提出基于码率的MV候选项消除策略。研究发现最优MV通常在MVP附近,通过限制MV的码率缩小运动搜索窗口从... 查看详情

mpai正式启动端到端的ai编码标准

...MPEG前主席LeonardoChiariglione在他的博客上宣布MPAI正式启动端到端的AI编码标准。端到端AI编码是指使用单层神经网络训练数据:由单层网络输出的数据被压缩,然后在接收端被另一个网络解码。如下图所示,单层神经网... 查看详情

icassp2021:av1基于决策树帧间划分早停止

本文来自ICASSP2021论文《DecisionTreeBasedInterPartitionTerminationForAV1Encoding》AV1引入了很多新的编码工具,导致其计算复杂度非常高。论文通过决策树在帧间预测进行块划分时预测划分方式,从而及早停止划分以减少时间。简介AV... 查看详情

通信系统物理层的端到端优化方法

...获得全局的最优结果,现有学者提出将通信过程看作一项端到端的任务,在一次完整的通信中联合优化各模块。下文提出在某一确定的信道模型(如白噪声高斯信道)下,利用自编码器模型,训练得到信号调制方式及解码方式。... 查看详情

腾讯turinglab论文入选icassp,图像ai研究成果获国际认可

近日,全球顶级信号处理技术会议ICASSP2022公布了论文入选名单。由王君乐博士带领的腾讯TuringLab实验室论文——《针对手机游戏的主观与客观视频质量评价》(SubjectiveandObjectiveQualityAssessmentofMobileGamingVideo)、《引入... 查看详情

icassp2021:面向scc的自适应双重树结构

本文来自ICASSP2021论文《AdaptiveDualTreeStructureforScreenContentCoding》在HEVC中,CTU采用四叉树方式递归划分,同一个CTU的亮度CTB和色度CTB采用相同的划分结构即单重树结构。而对于VVC,采用帧内预测模式的CTU的亮度CTB和色度CT... 查看详情

腾讯turinglab论文入选icassp,图像ai研究成果获国际认可

近日,全球顶级信号处理技术会议ICASSP2022公布了论文入选名单。由王君乐博士带领的腾讯TuringLab实验室论文——《针对手机游戏的主观与客观视频质量评价》(SubjectiveandObjectiveQualityAssessmentofMobileGamingVideo)、《引入... 查看详情

28是否要使用端到端的深度学习?

是否要使用端到端的深度学习?(Whethertouseend-to-endlearning?)假设你正在搭建一个机器学习系统,你要决定是否使用端对端方法,我们来看看端到端深度学习的一些优缺点,这样你就可以根据一些准则,判断你的应用程序是否有... 查看详情

paddle学习图像分类

...出直接是图像识别的结果。这种基于”输入-输出”直接端到端的学习方法取得了非常好的效果,得到了广泛的应用。卷积层(convolutionlayer):执行卷积操作提 查看详情

深入了解flink如何实现端到端的exactly-once处理语义

...ource和Sink(包括ApacheKafka0.11版本以及更高版本)之间构建端到端的Exactly-Once语义的应用程序成为可能。它提供了一个抽象层,用户只需实现几个方法就可以实现端到端的Exactly-Once语义。如果这就是你需要了解的全部内容,可以去... 查看详情

如何通过端到端的微服务链跟踪请求?

】如何通过端到端的微服务链跟踪请求?【英文标题】:Howtotracingarequestthroughachainofmicroservicesend-to-end?【发布时间】:2020-01-1314:25:21【问题描述】:我在Go中使用OpenCensus将跟踪数据推送到Stackdriver,以处理涉及2个或更多微服务链... 查看详情

将图像从服务器发送到客户端的专业方式

】将图像从服务器发送到客户端的专业方式【英文标题】:Professionalwaytosendimagesfromservertoclient【发布时间】:2021-09-1217:56:49【问题描述】:我们正在计划我们的期末学校项目,我需要找到一种将图像从服务器发送到客户端(Flutte... 查看详情

端到端的实时计算:tidb+flink最佳实践

端到端的实时计算:TiDB+Flink最佳实践作者简介孙晓光,PingCAPCommunityDevelopment团队负责人,原知乎基础研发团队架构师,长期从事分布式系统相关研发工作,关注云原生技术。本文来自孙晓光在ApacheFlinkxTiDBMe... 查看详情

hed笔记

...cally-NestedEdgeDetectionHED(Holistically-NestedEdgeDetection)是一个端到端的边缘检测网络,特点是提取不同尺度的特征,和多输出的多监督及融合。HED在产业上应用比较广泛。Holistic:指该方法的预测和训练都是端到端的;Neted:指通过... 查看详情