正文

icassp2021：端到端的图像编码方法

Dillon2015  Dillon2015  2022-12-27  261

关键词：

本文来自ICASSP2021论文《Image Coding For Machines: An End-to-end Learned Approach》

基于深度学习的计算机视觉在图像领域应用越来越广泛，每天产生的图像数量爆发式增长，传统的图片编码器是面向人眼视觉而不是机器处理。本文提出基于神经网络（NN）的端到端学习的面向机器的图像编码器（Image Coding for Machines，ICM）。

本文算法

本文ICM模型的优化目标是机器任务的性能而不是像素保真度，模型包含一个自编码器，一个概率模型和一个熵编码器。流程如Fig.1所示，输入的未压缩图像x首先被基于神经网络的编码器E变到新的数据空间y=E(x;theta)，然后y被量化y^=Q(y)，最后被熵编码器EE进行无损压缩，其中熵编码器使用了概率模型进行概率分布的估计。码流在解码端首先使用熵解码器ED进行熵解码，然后由基于神经网络的解码器解码x^=D(y^;theta)。

自编码器

不像普通的自编码器，本文提出的自编码器目的不是重建输入图像，而是为了解码出数据矢量能提供好的机器处理效果，同时编码器的输出能被熵编码器高效压缩。它们可以分别表示为机器处理损失L_task和码率损失L_rate。

用于机器处理的神经网络模型是预训练好的且固化不变的，模型输入是图像格式（三通道），所以解码器的输出向量格式需要和图像相同。

论文中编码器和解码器架构使用CNN，如Fig.2所示，其中S代表stride，c代表输出通道数。

为了节省编码解码时间和计算资源，CNN中间层和最后层滤波器数量都很少。同时自编码器的优化使用L_task和L_rate损失。

概率模型

对于量化输出y^根据其概率估计进行熵编码，如果概率估计和它真实的概率分布一致则其香农熵最小。码字长度r可以按照香农交叉熵估计如下：

为了使r最小，概率模型需要学习分布p_y^，文中使用的模型是高斯混合模型，通过学习其参数来拟合分布。为了解压y^，携带先验信息的码流z^被发送到解码端。最终L_rate由这两段码流总长度计算，

概率模型在端到端的训练中和自编码器进行联合优化。在训练过程在量化步骤被加入均匀噪声替代，这是因为量化是不可微的，而训练是基于梯度的。

训练策略

论文使用了两种CV模型来处理不同任务：Faster R-CNN进行目标检测，Mask R-CNN进行实例分割。对这两种任务训练分别进行。

图像编码通常使用RDO进行优化：J=R+lambda*D。在论文在扩展了失真D的含义，增加了L_task，最终训练的损失函数为：

w_rate，w_mse，w_task分别表示权重，其中训练过程中权重动态变化。

训练数据都是自然图像，论文首先训练一个仅包含L_mse的基础模型(w_rate=w_task=0,w_mse=1)，然后在基础模型上保持w_mse=1逐步调大w_rate和w_task，如Fig.3所示。最终w_rate和w_task占据优势，使得系统朝着机器任务方向优化。

实验结果

论文ICM系统面向两个机器任务：示例分割和目标检测。使用未压缩的cityscapes数据集训练和测试模型。由于CV模型是在COCO数据集上预训练的，所以评测效果时只在两个数据集共有的类别上：汽车、人、自行车、公交车、货车、火车和摩托车。

评测方法和基准：对于每种压缩方法的评测是基于码率和在验证集500幅图像上的机器处理表现。使用bpp作为码率指标，mAP作为机器处理评价指标。基准使用VTM-8.2，All-Intra配置。

为了达到不同码率，使用28组参数编码验证集，由QP=22,27,32,37,42,47, 52和降采样率100%,75%,50%,25%组合成。这形成了28组编码的验证集，对于降采样的图像还要上采用为原始尺寸。

权重在训练过程中动态变化，具体如下：

其中e表示epoch，(p1,p2,p3,p4)=(50,75,120,165),

最终的Rate-Performance 曲线如Fig.4所示。本文方法的曲线是在训练每完成一个epoch后在验证集上验证一次得到一个数据点。

如表1所示，文中方法在目标检测上评价节省37.87%码率，在实例分割上评价节省32.90%码率。

Fig.5是输出的重建图像，可以看见ICM对于那些对于机器处理不重要的区域压缩更严重，而低码率区域则很好的保留了物体的形状和边缘等。

感兴趣的请关注微信公众号Video Coding

端到端的方法

摘要:纯粹的端到端方法,是指根据预先给定的训练数据,即地震记录-速度模型对,训练一个深度网络.这本质上是一个离线(offline)的方式.训练获得的模型,可以很快进行预测.1.基本思想可以把反演看作是图片的“风格迁移”,类似于将... 查看详情

端到端图像编码和vvc的结合

...》简介提案提出了一种混合编码方法，对视频I帧使用端到端的图像编码器编码，P和B帧使用VVC编码，如Fig.1，其中P和B帧内的intra块还是使用VVC编码。基于神经网络的端到端图像编码器查看详情

icassp2021：av1帧内模式编码改进

本文来自ICASSP2021论文《IMPROVEDINTRAMODECODINGBEYONDAV1》AV1帧内预测简介在AV1中帧内预测模式分为角度帧内预测模式和非角度帧内预测模式，和VP9一样有8种角度帧内预测模式，在每种方向上还有7个delta角度（-3~+3）用... 查看详情

论文阅读一种端到端的对抗生成式视频数字水印算法

2021.07中国科技论文【摘要】提出了一种端到端的对抗生成式视频盲水印嵌入提取算法。该算法主要由编码器和解码器组成,编码器用于生成包含水印信息的视频,解码器用于提取视频中所包含的水印信息。不同于传统的基于频域或... 查看详情

icassp2021：通过码率限制降低me复杂度

本文来自ICASSP2021《RelyingonaRateConstrainttoReduceMotionEstimationComplexity》运动估计ME是视频编码中最耗时的部分之一，本文提出基于码率的MV候选项消除策略。研究发现最优MV通常在MVP附近，通过限制MV的码率缩小运动搜索窗口从... 查看详情

mpai正式启动端到端的ai编码标准

...MPEG前主席LeonardoChiariglione在他的博客上宣布MPAI正式启动端到端的AI编码标准。端到端AI编码是指使用单层神经网络训练数据：由单层网络输出的数据被压缩，然后在接收端被另一个网络解码。如下图所示，单层神经网... 查看详情

icassp2021：av1基于决策树帧间划分早停止

本文来自ICASSP2021论文《DecisionTreeBasedInterPartitionTerminationForAV1Encoding》AV1引入了很多新的编码工具，导致其计算复杂度非常高。论文通过决策树在帧间预测进行块划分时预测划分方式，从而及早停止划分以减少时间。简介AV... 查看详情

通信系统物理层的端到端优化方法

...获得全局的最优结果，现有学者提出将通信过程看作一项端到端的任务，在一次完整的通信中联合优化各模块。下文提出在某一确定的信道模型（如白噪声高斯信道）下，利用自编码器模型，训练得到信号调制方式及解码方式。... 查看详情

腾讯turinglab论文入选icassp，图像ai研究成果获国际认可

近日，全球顶级信号处理技术会议ICASSP2022公布了论文入选名单。由王君乐博士带领的腾讯TuringLab实验室论文——《针对手机游戏的主观与客观视频质量评价》（SubjectiveandObjectiveQualityAssessmentofMobileGamingVideo）、《引入... 查看详情

icassp2021：面向scc的自适应双重树结构

本文来自ICASSP2021论文《AdaptiveDualTreeStructureforScreenContentCoding》在HEVC中，CTU采用四叉树方式递归划分，同一个CTU的亮度CTB和色度CTB采用相同的划分结构即单重树结构。而对于VVC，采用帧内预测模式的CTU的亮度CTB和色度CT... 查看详情

腾讯turinglab论文入选icassp，图像ai研究成果获国际认可

28是否要使用端到端的深度学习？

是否要使用端到端的深度学习？（Whethertouseend-to-endlearning?）假设你正在搭建一个机器学习系统，你要决定是否使用端对端方法，我们来看看端到端深度学习的一些优缺点，这样你就可以根据一些准则，判断你的应用程序是否有... 查看详情

paddle学习图像分类

...出直接是图像识别的结果。这种基于”输入-输出”直接端到端的学习方法取得了非常好的效果，得到了广泛的应用。卷积层(convolutionlayer):执行卷积操作提查看详情

深入了解flink如何实现端到端的exactly-once处理语义

...ource和Sink（包括ApacheKafka0.11版本以及更高版本）之间构建端到端的Exactly-Once语义的应用程序成为可能。它提供了一个抽象层，用户只需实现几个方法就可以实现端到端的Exactly-Once语义。如果这就是你需要了解的全部内容，可以去... 查看详情

如何通过端到端的微服务链跟踪请求？

】如何通过端到端的微服务链跟踪请求？【英文标题】：Howtotracingarequestthroughachainofmicroservicesend-to-end?【发布时间】：2020-01-1314:25:21【问题描述】：我在Go中使用OpenCensus将跟踪数据推送到Stackdriver，以处理涉及2个或更多微服务链... 查看详情

将图像从服务器发送到客户端的专业方式

】将图像从服务器发送到客户端的专业方式【英文标题】：Professionalwaytosendimagesfromservertoclient【发布时间】：2021-09-1217:56:49【问题描述】：我们正在计划我们的期末学校项目，我需要找到一种将图像从服务器发送到客户端（Flutte... 查看详情

端到端的实时计算：tidb+flink最佳实践

端到端的实时计算：TiDB+Flink最佳实践作者简介孙晓光，PingCAPCommunityDevelopment团队负责人，原知乎基础研发团队架构师，长期从事分布式系统相关研发工作，关注云原生技术。本文来自孙晓光在ApacheFlinkxTiDBMe... 查看详情

hed笔记

...cally-NestedEdgeDetectionHED（Holistically-NestedEdgeDetection）是一个端到端的边缘检测网络，特点是提取不同尺度的特征，和多输出的多监督及融合。HED在产业上应用比较广泛。Holistic：指该方法的预测和训练都是端到端的；Neted：指通过... 查看详情