正文

多模态ai浪潮来袭，或造福数亿视障人群

AI科技大本营  AI科技大本营  2023-04-02  603

关键词：

外卖、打车、社交、视频……现代社会海量的应用服务着人们的工作和生活，让人非常方便地就能体验到丰富的物质和精神享受。但与此同时，“障碍人群”的需求也值得关注。

第二次全国残疾人抽样调查结果、国家统计局2021年第7次人口普查数据，以及中国互联网络信息中心官网等综合显示：我国有1691万视障人士、2780万听障人士、2977万肢体残障人士、2.6亿60岁及以上老年人、4.16亿非网民，以及大量的认知障碍人士。

其实，进一步说，“非障碍人群”可能也会遇到情境性障碍和临时性障碍，比如突如其来的伤病，在伤病期间，部分功能的受损，使其也临时成为“障碍人群”。

对“障碍人群”给予更多的关注和必要的帮助，不仅是社会文明进步的标志，也体现出社会的平等、公平。因此，如何让“障碍人群”平等享受现代文明，成为当下推动社会文明进步的关键命题。

信息无障碍：让每一个人都平等享受现代文明

对于“障碍人群”而言，科技所带来的改变可能是颠覆性的，将会显著提高TA们在社会活动中的独立性和生活质量，“信息无障碍”就是希望借助科技的力量，让“障碍人群”平等地享受现代文明。

2020年，工业和信息化部、中国残联联合发布的《关于推进信息无障碍的指导意见》是这样定义信息无障碍的：

“信息无障碍是指通过信息化手段弥补身体机能、所处环境等存在的差异，使任何人（无论是健全人还是残疾人、无论是年轻人还是老年人）都能平等、方便、安全地获取、交互、使用信息。”

我们欣喜地看到，现在越来越多的机构、组织、企业，正在借助科技的力量，为每一个的生活带来改变。

信息无障碍最具挑战课题：AI助盲

据世卫组织统计，全球至少有22亿人视力受损或失明。因此，在诸多“障碍”中，针对“视觉障碍”的科研和应用探索尤为广泛和深入。这其中，在众多现代化的技术中，AI助盲成为学术界和产业界关注的焦点。

一般来说，视障人群认知外界世界的渠道主要是听觉、嗅觉和触觉，这些其他模态的信息一定程度上帮助视障人士缓解了视力缺陷带来的问题。但在人类获取的外界信息中，来自视觉的占比高达70%~80%，因此直接基于AI构建机器视觉系统，帮助视障患者拥有对外界环境的视觉感知与视觉理解能力，无疑是更为有效的解决方案。

当下，某些单模态AI，图像识别已经超越了人类水平，但随着各种单模态技术的不断成熟，不同模态之间如何交互成为算法研究的瓶颈。为了提升AI模型的泛在能力，使机器具备跨模态的图像解析与理解能力，以“机器视觉+自然语言理解”为代表的多模态算法成为近年的研究焦点。而这种技术一旦成熟并应用于AI助盲领域，将能够造福数以亿计的视障人群。

AI助盲，从盲人视觉问答任务谈起

第一人称视角感知技术，对于AI助盲来说意义重大。它无需盲人跳出参与者身份去操作智能设备，而是从盲人的真实视角出发，帮助科学家们构建更符合盲人认知的算法模型，促进了盲人视觉问答任务的出现。

盲人视觉问答任务是学术界研究AI助盲的起点和核心研究方向之一，但在现有技术条件下，该任务的精度提升面临更大困难。一方面，盲人的问题类型更复杂，包括目标检测、文字识别、颜色、属性识别等各类问题，比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等。另一方面，由于盲人在拍照时，很难把握手机和物体间的距离，经常会产生虚焦的情况，或者缺失关键信息，大大增加了有效特征提取难度。同时，现存的大部分视觉问答模型是基于封闭环境下的问答数据训练实现的，受样本分布限制严重，难以泛化到开放世界下的问答场景中，需要融合外部知识进行多段推理。

盲人视觉问答数据

其次，盲人视觉问答研究发现，视觉问答会遇到噪声干扰的衍生问题。如何准确定位噪声并完成智能推理，也面临重大挑战。盲人由于不具备对外界的视觉感知，因此在图文配对的视觉问答任务中，往往会产生大量错误。例如，盲人去超市购物时，由于商品外观、触感相似，很容易出现错误，比如拿起一瓶甘草片，却询问胃肠安一天吃几粒。这种语言噪声往往会导致现有AI模型失效，需要AI能够具有从庞杂的环境中分析噪声与可用信息的能力。

最后， AI助盲系统不应仅仅解答盲人当下的疑惑，还应该具备智能意图推理与智能信息呈现能力。智能意图推理技术的研究重点在于，通过让机器不断学习视障人群的语言和行为习惯，来推断其想要表达的交互意图。而由于使用者的表达方式和表达动作在时间和空间上都存在随机性，由此引发了交互决策的心理模型同样带有随机性，因此如何从连续随机的行为数据中提取用户输入的有效信息，设计出动态非确定的多模态模型，从而实现对不同任务的最佳呈现，非常关键。

毋庸置疑的是，在上述基础研究领域的重大突破，才是AI助盲技术早日落地的关键所在。来自浪潮信息的前沿研究团队正在通过多项算法创新、预训练模型和基础数据集构建等工作，推动AI助盲的进一步研究。

盲人视觉问答——看到盲人的需求

卡内基-梅隆大学等机构构建了一个盲人视觉数据库“VizWiz”，并发起全球多模态顶级视觉问答挑战赛VizWiz-VQA盲人视觉问答挑战赛，其模式是给定一张盲人拍摄的图片和问题，然后要求给出相应的答案。

目前，浪潮信息前沿研究团队提出了多项模型优化方法，在VizWiz-VQA上，实现了算法精度领先人类表现9.5%，在AI助盲领域获得世界冠军两项、亚军两项。

在VizWiz官网上公布的2万份求助中，盲人最多的提问就是想知道他们面前的是什么东西，而这些物品没法靠触觉或嗅觉来做出基本判断，例如 “这本书书名是什么？”。这需要模型拥有较强的图像文本识别能力，而盲人拍摄图片难以保证图像的方向，为此浪潮信息前沿研究团队提出自监督旋转多模态模型，通过自动修正图像角度及字符语义增强，结合光学字符检测识别技术解决“是什么”的理解问题。

此外，盲人除了想知道眼前物体是什么及其属性是什么之外，通常还需要知道眼前物体的用途。然而盲人拍摄的画面通常是模糊、不完整的，这导致一般算法难以判断目标物体的种类及用途。因此盲人问答模型需具备更充分的常识能力，可以依据低质量图像中残缺的信息推理用户真实意图。为此，浪潮信息前沿研究团队提出了答案驱动视觉定位与大模型图文匹配结合的算法，并提出多阶段交叉训练策略。推理时，将交叉训练后的视觉定位和图文匹配模型用于推理定位答案区域；同时基于光学字符识别算法确定区域字符，并将输出文本传送到文本编码器，最终通过图文匹配模型的文本解码器得到最终答案。

多模态视觉问答模型解决方案

问答交互噪声定位——看清盲人的需求

当前，视觉定位研究应用落地的最大障碍之一是对于噪声的智能化处理。一般来说，文本描述往往有口误、歧义、修辞等噪声，而文本噪声会导致现有AI模型失效。

为此，浪潮信息前沿创新团队探索了真实世界中，由于人类语言错误导致的多模态失配问题，首次提出视觉定位文本去噪推理任务FREC，并构建了首个可解释去噪视觉定位模型FCTR。

FREC要求模型正确定位噪声描述对应的视觉内容，并进一步推理出文本含噪的证据，提供了3万图片和超过25万的文本标注，囊括了口误、歧义、主观偏差等多种噪声，还提供噪声纠错、含噪证据等可解释标签。

FCTR则实现了噪声文本描述条件下精度较传统模型提升11个百分点。该研究未来可广泛应用于机器人助理客服、大数据检索、数字机器人、育儿等多模态人机交互与论断推理等场景。

FCTR结构图

令人兴奋的是，FREC、FCTR这两项证明AI具有更深层次理解潜力的研究成果，已发表在多媒体领域顶级会议ACM Multimedia 2022，向全球的AI从业者分享来自中国的科技善举。

智能交互研究——看懂盲人的心声

此外，为了让AI能够更懂盲人，浪潮信息前沿创新团队还在探索AI在图像和文本的基础上与人进行思维交互的能力，通过建立逻辑链在庞大的知识库中进行检索，对图像和文本的已有内容实现扩展。

为此，浪潮信息前沿创新团队构建了可解释智能体视觉交互问答任务AI-VQA，同时给出首个智能体交互行为理解算法模型ARE（encoder- decoder model for alternative reason and explanation），这为科研工作者开展相关研究探索提供了基础数据集和基础模型。

ARE结构图

AI-VQA提供了开源数据集，里面包含超过14.4万条大型事件知识库、全人工标注1.9万条交互行为认知推理问题，以及关键对象、支撑事实和推理路径等可解释性标注。

ARE预训练模型首次实现端到端的交互行为定位和交互行为影响推理，基于多模态图像文本融合技术与知识图谱检索算法，实现了具备长因果链推理能力的视觉问答模型。

科技向善旨在将科技赋能人类社会可持续发展，只有全面覆盖到所有人群，实现信息无障碍，才是真正的“最美科技”。浪潮信息前沿研究团队在AI助盲领域所做的努力，为此做出了表率。

面向未来，AI助盲领域的“最美科技”多模态算法，有望实现应用场景的更多落地，比如在AI医疗诊断、AI反诈、AI灾情预警、AI智能政务等方面，为社会创造更多的价值。

百度大脑ocr技术加持白描app：让ai成为视障者的眼睛

...面印刷文字以及身边的一切，或许你未曾想过，视障人群该怎么办呢？统计数据显示，中国大约有1700万的视障群体，相当于每100个人中就有超过1位是视障人士。但我们在日常生活中却很少见到他们，那是... 查看详情

百度大脑ocr技术加持白描app：让ai成为视障者的眼睛

1024分论坛：科技之光，打开视障群体的新“视”界

...生或者后天罹患残疾的人群来说，如何能够在时代的浪潮中也掀起他们应有的浪花？为了解答这个问题，我们邀请到四位视障技查看详情

chatgpt软件技术栈解密

ChatGPT点燃了通用AI浪潮，继农业革命、工业革命、计算机技术革命后，也将可能掀起AI技术革命。业界对ChatGPT的AI算法关注得比较多，但是OpenAI已经演变为服务数亿用户的平台服务。近3个月ChatGPT的SLA大约99%，也就是说平均每天... 查看详情

ai云服务

多模态特征提取：目前尤其是90后，在对话当中经常使用表情图、动态图等方式来表达情感，而将这些非语言信息的语义提取并翻译出来，就是多模态提取的任务了。比如今年KDDCup的一道赛题就是“多模态商品推荐”,其中... 查看详情

有爱无碍，科技为他们点亮漫天星光

据统计，我国现有2780万听障人群1731万视障人群囿于视觉或听觉的阻隔他们，被困在信息的“孤岛”我们习以为常的日常生活、工作却是他们梦寐以求的期望我有一个视障工程师朋友。没错，是我们印象中那种坐在电... 查看详情

极智ai|多模态新姿势详解blip算法实现(代码片段)

...视界，本文详细介绍一下BLIP算法的设计与实现。多模态一定不是一个新鲜的话语，随着AI的发展，也正成为一种趋势。Vision-LanguagePre-training(VLP)+Fine-tuning=>ZeroShot/FewSho 查看详情

带你读ai论文丨针对文字识别的多模态半监督方法

摘要：本文提出了一种针对文字识别的多模态半监督方法，具体来说，作者首先使用teacher-student网络进行半监督学习，然后在视觉、语义以及视觉和语义的融合特征上，都进行了一致性约束。本文分享自华为... 查看详情

socialinformationgraph

研究内容解读面向多源、异构和跨模态复杂社会信息，研究语义融合、网络表征和动态演化的理论框架;多源:多数据源爬取，异构:不同数据结构，不同结构的结构化数据，结构化数据与文本数据跨模态:模态是指数据的存在形式... 查看详情

华为云技术分享云图说|华为hilens：端云协同多模态ai开发应用平台

...，端侧兼容性差，部署技能困难。华为云提供端云协同多模态AI开发应用平台——华为HiLens，提供简单易用的开发框架，、开箱即用的开发环境、丰富的AI技能市场和云上管理平台，对接多种端侧计算设备，支持视觉及听觉... 查看详情

2020智源-京东多模态对话挑战赛开战产学研联合推动ai技术发展

...字人、智能服务机器人的普及应用，兼备“视听说”的多模态对话系统，已在零售、客服、金融、媒体、教育、旅游等诸多领域变得越来越重要。为推动跨模态智能对话与人机交互技术发展，智源-京东跨媒体对话智能联合实验... 查看详情

跨模态前沿ai技术及产业应用|8月16日tf70

随着技术和产业的进一步发展,多模态成为AI技术和产业突围的新方向，更多场景应用需要多模态大模型来支撑,本期会议邀请到JinaAI、超对称技术公司、网易有道等跨模态方向的优秀企业，深入探讨当今跨模态AI技术的最... 查看详情

ai论文解读丨融合视觉语义关系多模态信息的文档版面分析架构vsr

...有很重要的作用。本文提出一种融合视觉、文本、关系多模态信息的版式分析架构VSR。本文分享自华为云社区《论文解读系列十八：融合视觉、语义、关系多模态信息的文档版面分析架构VSR》，作者：小菜鸟chg。现有... 查看详情

360美团快手等公司携手智源研究院共建ai开放实验室

...用户的互联网服务。未来，这些AI能力都将投入到多模态大数据开放实验室的共建中。”近日，在智源研究院举办的北京国家新一代人工智能创新发展试验区开放实验室共建座谈会上，三六零公司（股票代码：... 查看详情

icml2022｜达摩院多模态模型ofa，实现模态任务和架构三个统一

...成为AI研究的一大趋势，本文将介绍达摩院提出的多模态模型OFA，是如何实现架构、模态、任务的三个统一。近年来，基于大规模无监督数据的预训练逐渐成为深度学习研究的热潮，大规模预训练模型也凭借其强... 查看详情

果然，武汉驶上了ai高速路

...向智能时代的转型中，武汉深谙此理。这不，多模态人工智能产业联盟，为此而来。中科院自动化研究所牵头，华为、武汉人工智能研究院提供技术支持。再看其他联盟成员：武汉大学、华中科技大学、中移... 查看详情

元宇宙浪潮震撼来袭，抓住时机，齐心协力

互联网诞生至今，世界已与网络互联共生。Z世代（1995～2009年间出生的一代人）对互联网的依赖不同于前辈，他们不再局限于视觉、听觉的网络传播互动，也不仅是通过互联网把视觉、听觉、嗅觉、味觉、... 查看详情