正文

人类视觉神经科学助力音视频产业革命-弱网下的极限实时通信

声网Agora  声网Agora  2023-01-03  311

关键词：

一、什么是弱网?

1.1 弱网概念

弱网从字面意思看就是网络比较弱, 我们通称为信号差, 网速慢, 随着移动互联网火热发展的这些年, 大量用户会在地铁, 隧道, 电梯和车库等特殊场景下使用移动端 APP 。这些场景下, 网络会出现延迟、中断、抖动、超时等情况。

1.2 网络形态

网络形态包含有线连接, 2G/3G/4G/5G/Edge/Wifi 等多种网络连接形式, 从测试的角度说, 也包含断网, 网络故障等情况, 对于弱网的数据定义, 不同的应用所界定的含义也是不一样且不清晰的, 一般来说低于 2G 速率的都属于弱网, 也可以将 3G 划分为弱网, 除此之外, 极低宽带 < 50kbps, 弱信号的 Wifi 等也是弱网。

1.3 研究背景

有一些特殊场景, 例如 : 森林救灾, 边防监控, 等场景, 这些场景往往关乎国家安全与生命安全, 更加需要严苛的实时通信, 但是这些场景依赖的基站往往会受到自然因素的干扰, 例如地震等自然灾害。

二、尝试了哪些技术尝试?

2.1 AI 控制

在观看直播过程中听到马老师提出了一个新的概念, 人眼在感知图像的时候, 处理大概是 100B/s, 然后通过视网膜上的细胞进行分离之后, 大概压缩了 100 倍, 然后经过一系列的细胞处理, 最后只有大约 40b/s, 并且人眼关注的区域分辨率相对高一点, 人眼不关注的区域相对分辨率就低一点. 并且人眼对于某些区域, 某些颜色特别的敏感, 叫做注意力机制。

传统的流控技术在进行音视频编码和传输的过程中往往无法根据具体的网络环境选择适合的算法和码率控制, AI 控制模块(相当于人脑)会收集视频会话经验(人眼关注的东西), 包括视频编码器、接收端的编码状态、网络、播放状态, 根据这些特征, 对抗网络波动, 作出编码参数的设置决策。

2.2 强化网络主动决策(压缩和融合)

根据不同用户, 也就是播放端进行一种个性化的丢帧, 但整体感观并不会有大差异, 这项技术利用的是多帧视频时空一致性原理, 基于人的细胞对于不同的图像的特征敏感度不一样这一现象, 有些细胞对于颜色敏感, 有些细胞对于运动敏感, 有的细胞对于方向性比较敏感, 有些细胞对于纹理比较敏感, 所以人的大脑对所感知到的音视频信息并不是像解码器一样一个 bit, 一个 bit 来解码的, 而是部分解码的, 所以, 对于任何一个视频输入结构, 主要拆分成两部分, 一部分用来存储空间上纹理细节的保留, 另一部分对于运动的细节不是那么敏感, 所以另外一路空间就可以不用占用那么高了。当然在融合和重建的过程中, 还需要智能学习进行补偿和转化。所以最后输出的音视频感觉才不会有很大差异。

2.3 基于强化学习的视频码率自适应

根据视频分类, 网络分类进行在线学习模型训练, 例如, 大部分男生喜欢游戏类视频, 大部分女生喜欢淘宝购物类视频, 不同分类视频所返回的视频码率和精度不同, 基于此提出, 能否对不同类型的视频进行模型训练, 用户端在播放不同类型的视频时会选择不同的算法。基于在线学习平台相对于离线模型效率有一定的提升。

三、个人感悟

3.1 有哪些具体的弱网环境应用落地场景(1 药网/重庆 120 急救)

1 药网是在疫情期间紧急开辟了面向武汉的免费线上问诊通道, 并以将范围扩展至湖北省全境, 视频问诊, 电子处方和远程买药功能采用了声网 Agora 的实时音视频技术,在视频问诊的场景中, 由于医生与患者处于不同的网络环境, 以上所说的弱网环境均有可能出现, 在这些环境下, 声网 Agora 具备优秀的弱网传输和抗丢包算法, 依然可在 60%的丢包情况下保障音视频流畅, 70%的丢包网络环境下保障语音的流畅。

120 急救则是通过视频远程指导+急救教学视频指导, 真正做到了为生命争取机会和时间。但是同样患者有可能处于弱网环境中, 如何保证音视频传输质量, 依然尤为重要。并且, 急救更讲究争分夺秒, 并且要保证连通率, 接通失败则可能意味着耽误急救, 根据官网数据资料显示声网在全球有超过 200 个数据中心, 基于此搭建的软件定义实时网, 在网络较差的环境下, 也能保证稳定可靠, 高质量的传输和 99.9%的高连通率。

3.2 心得体会

业务形态在变, 技术必须跟上, 原本以为, 随着技术的不断发展与进步, 例如 5G, GPU, 芯片等硬件设备的更新升级, 对于软件研发人员来说, 可以忽略网络抖动或者硬件环境的制约, 更加不会想到, 是否会有一天自己开发的软件可能需要运行在一个比较苛刻的环境之中, 或者, 所提供的服务, 用户用用的设备太老不兼容等情况, 所以, 平时很不注重代码的健壮性, 能用就行, 凑合用着, 这些习惯竟然已经不知不觉潜移默化影响了我, 不知道有没有同学是像我一样, 有则改之, 无则加勉。

之前对于音视频的概念一直停留在比较传统的编解码, 直播拉流, 视频点播等常见应用之中, 并没有深思, 每一个用户所在网络环境的差异化; 所以说研究弱网下的极限视频通信并非吹毛求疵, 其有很重要的现实意义, 大到国防安全, 小到人民生活的方方面面。

人工智能风口下, 结合 AI, 以及人类视觉神经科学, 音视频领域也可借一把东风, 寻求技术的突破与革新。除此以外, 个人认为, 如边缘计算, 雾计算等概念的兴起与应用, 缩短了用户与服务之间的距离, 以前多在中心节点部署服务, 现在以微服务的方式部署会更加高效, 比如 WebRTC 的服务到边缘节点。除此之外, 边缘节点部署服务成本更低, 节省带宽。

弱网下的极限实时视频通信

一、弱网下极限视频通信是什么？所谓的弱网络环境就是网络不是很好，比如无线wifi、跨多层网络路由、或者网路负载过大等等情况，这样数据在传输中会发生丢失的情况。通常意义上，当我们出现网络有拥塞之... 查看详情

笔记分享--弱网下的极限实时视频通信

今天给大家分享一下InfoQ平台公开课——弱网下的极限实时视频通信，关于实时视频通信的极限探索，主讲人是南京大学的马展教授。一、课题背景首先说下课题的背景，平时手机、电脑等网络设备接收信息的准确性... 查看详情

免费报名产业互联网下的数据科学|9月24日tf74

产业互联网本质是对100万亿GDP的重新解构，尤其是在当前经济大环境下，重构价值链，创造更健康的商业模型变得尤为重要。而作为可轻松进入任意领域后花园的数据科学家，天职就是利用数据的优势，发现... 查看详情

阿里云丨以ai助力电力产业变革_创造有为时代——访阿里云人工智能科学家闵万里

...下了一百万盘棋。自此，相关的算法进入井喷发展阶段，人类在该领域与机器的竞技再无胜绩。李世石第一次与阿尔法狗交手得胜后的夜晚，当他身心疲乏地入睡后，阿尔法狗沉默不语地发挥着自己可以无休的特性，静夜中又和... 查看详情

计算机视觉概要和卷积神经网络基础概念

...时，人工智能其他分支的研究已经有一些初步成果。由于人类可以很轻易地进行视觉认知，MIT的教授们希望通过一个暑期项目解决计算机视觉问题。当然，计算机视觉没有被一个暑期内解决，但计算机视觉经过50余年发展已成为... 查看详情

音视频专项培养

*性能测试*1、结论：关于推流丢包率，我们上次就发现了这个问题，几乎没有丢包，也就意味着每次传输都保证了传输数据到达率，但是这个在弱网下就是一个好的表现吗？没有主动丢包的策略每帧数据都传输是否加剧了网了拥... 查看详情

当技术重塑健身产业，ai有可能胜过人类教练吗？

一说起体育，我们总觉得这是人类的专属。毕竟也只有我们这一个物种会不断挑战生理的极限，不为了生产，而是为了证明自己可以。可看似和科技毫无关联的体育行业中，其实也有很高的技术含量。比如在足球比赛中利用大数... 查看详情

视频编码完全指南

...积大小或码率的同时而不对其质量产生不良影响（在人类的视觉感知下）的科学。对视频进行编码从而减少其数据体积同时保持视频质量是一项综合了艺术和科学的技术。在本篇文章中࿰ 查看详情

数字经济时代下，区块链如何助力数字产业发展？

...数据存储面临的问题不同的经济时代具有不同的特征。在人类早期的农业经济时代，人们生存和发展依赖的是土地和劳动力；随着工业时代的到来，经济发展越来越依赖资本和技术；而现如今，随着数字经济... 查看详情

人类科技发展重要事迹时间轴

...大航海时代18世纪60年代--19世纪中期，第一次工业革命，人类开始进入蒸汽时代19世纪下半叶--20世纪初，第二次工业革命，人类开始进入电气时代二战后，第三次工业革命，生物技术和信息技术参考技术B纸上得来终觉浅，绝知... 查看详情

视频管理软件技术分析报告--概述

...输意义上，视频信号又被称作视频流、媒体流。??视频是人类视觉能力的延伸，是人类与人类视觉观察空间内各种物体，各种事件维持联系的中介。??视频是视频监控系统的基础，视频监控系统是综合应用视音频编解码查看详情

联通边缘ai:打造“职业技能”，助力行业高质量发展

...廉士国博士来分享，廉博士是中国图像图形学会三维视觉专委会委员、IEEE智能计算及多媒体通信委员会委员、国家工业互联网产业联盟网络实验室专家委员，发表专著/论文、申请专利超200项，入选全球高被引科学家查看详情

miccai2022|基于对比学习和视觉transformer的弱监督视频肠息肉检测(代码片段)

... CV 微信技术交流群一句话总结本文提出一种有效的基于视觉Transformer的弱监督视频异常检测架构来实现精准检测结直肠息肉。这也是首篇利用弱监督视频标签来进行肠息肉检测的研究，文章基于之前数据集整理合并提出了... 查看详情

机器学习rnn学习

...，课程容量巨大，收获颇丰。之前提到的CNN模型主要用到人类的视觉中枢，但其有一劣势，无论是人类的视觉神经还是听觉神经，所接受到的都是一个连续的序列，使用CNN相当于割裂了前后的联系。从而诞生了专门为处理序列的... 查看详情

第一章使用神经网络识别手写数字

原文：http://neuralnetworksanddeeplearning.com/chap1.html 人类视觉系统是世界上的一大奇迹。看以下这串手写体数字：　　　　大多数人毫不费力便能识别出这是504192。但这种‘毫不费劲’是骗人的，在我们大脑的两个半球中，... 查看详情

以数助实攻坚产业协作蚂蚁集团数字科技业务亮相云栖大会

...生、隐私计算、安全科技、区块链等六大科技产品，助力机构数字化迈向产业协作数字化的产品体系浮出水面，多年BASIC技术战略迎来商业化实践成果。蚂蚁集团副总裁、数字科技事业群总裁蒋国飞透露，蚂蚁数字... 查看详情

嵌入式视频处理基础

...，里面充满了各种不同的分辨率、格式、标准与显示等。人类视觉感知：理解眼睛如何工作将对理解视频和图像技术的发展过程非常重要。正如您所见到的，视频的格式和压缩算法都取决于眼睛对各种不同类型的激励产生什么样... 查看详情

陀螺xr产业创投圈正式成立与首批34家投资机构助力xr产业加速发展

2021年12月10日，由广东省游戏产业协会、广东省虚拟现实产业技术创新联盟、深圳市科学技术协会、深圳市互联网文化市场协会指导，陀螺科技主办，深圳市科技开发交流中心、恒悦创客魔方协办，行业头部媒体... 查看详情