解开“机器的因果”:人机自然交互为何成为阿里ai观的起点

author author     2022-10-30     229

关键词:

很快《复联3》会上映,大伙喜闻乐见的钢铁侠又要来了。

围绕钢铁侠,有个有意思的现象值得我们开开脑洞:应该每个人都想要战甲里搭载的AI程序“贾维斯”,但所有人都在担心会不会有一天出现想要毁灭世界的AI机器人,奥创。

很多大人物,比如说霍金,都在提醒我们要警惕AI的潜在威胁。但仔细想想,贾维斯和奥创到底有什么区别呢?只是单纯的善恶之分?可善恶又由谁来分辨?

机器应该用智能服务人类,但不能有“过分的智能”,堪称AI领域的“先有鸡还是先有蛋”问题。

或许可以切换到另一种思路去思考这件事:贾维斯之所以让人喜欢,是因为他能读懂和理解钢铁侠的各种需求,令主动提供服务。也许我们在心底期待的,只是机器可以与人进行无成本的沟通与理解,而不是要拥有独立的人格与智慧。

技术分享图片

这样的逻辑下,AI服务于人类的基本价值就落到了那个既复杂又简单的名词上:人机交互。

今天我们来探讨这个问题,是因为刚刚清华大学与阿里巴巴宣布达成战略合作,共同成立清华大学- 阿里巴巴自然交互体验联合实验室。这个实验室的目的在于探索“下一代人机交互”的未来。

据悉,双方将以“人”为中心,探索“人-机器-环境”之间的关系,让机器以更自然的方式与人类互动、服务人类。

技术分享图片

跟众多企业与大学联合设立的实验室相比,清华大学- 阿里巴巴自然交互体验联合实验室的独特之处在于,它专注于解决一个十分急迫的问题。这个问题涉及广阔的产业与市场可能,甚至关乎于马云所说要让“机器更像机器,人更像人”的AI价值观。

让我们先从自然交互今天面临的一些问题说起。

“五感”合一:人机交互的拐角在何处?

在智能音箱“狂轰滥炸”过之后,或许很多人认为,今天的AI带来的自然交互能力已经相当成熟。但事实上,大伙可能还是有点乐观了。

当然,AI带来的语音识别、语义理解、NLP解决方案,以及花样繁多的传感与机器视觉技术,正在打开人机交互的新脑洞:过去只能通过键盘、鼠标、触屏进行命令输入的机器,正在开始以自然方式与人沟通。

比如我们已经可以语音控制音箱、电视和家居,人脸识别装置也开始普及到生活当中。

但这还远远不够。回想一下,为什么我们有时候打字说不明白的事,就想要电话沟通?有时候电话沟通也不行,必须当面谈谈才可以?

这是因为,人与人之间的交互是相当复杂的。不仅仅是语言在起作用,音色音调、表情、肢体动作,甚至一个人隐含的情绪、气势,都是人们之间进行自然交互的一部分。

但很显然,今天的AI还做不到这点。

技术分享图片

举个例子,今天搭载语音交互的空调开始成为新时尚。用语音操纵空调当然相比遥控器方便了很多,但也无非就是换了一种遥控方式而已。消费者获得的实质价值并没有提升。但如果空调不仅能听懂你,还可以看到全家人的位置、穿了多少衣服,还可以感知到屋子里的温度、湿度,甚至每一个用户的体表温度。那么空调就可以自主分析制冷模式,给每个人提供最适合的降温方案。毕竟空调病或者冷气吹太多导致的感冒,发生几率将大大降低。

这就是给机器加上“五感”,进行多模态综合感知的魅力——机器不仅是接受遥控的一方,它可以主动理解人类,通过智能运算得出更好的主动服务方案。

此外,目前AI在处理自然交互的时候,完全依托于计算机科学的知识系统。这就导致其会忽视人类在情绪、心理甚至隐喻层面的表达需求——听起来好像有点太难为人家机器了,但是没办法,精益求精嘛……

再举个例子,人的语言中是带着各种情绪的。虽然说一样的话,但附带的情感可能完全不同。我们回家让音箱放一首歌,可能是因为我们非常开心想要来点助兴的音乐,也可能是有事不顺心,想要安慰一下自己。

假如机器可以听出来人类语言中附带的情绪,可以观察到用户是低沉还是兴奋。那么给出的服务将完全不同,一句来自机器的问候下,可能很多让人不开心的事都烟消云散了。

技术分享图片

模态综合与心理解读,就像这两座大山一样横亘在AI自然交互的家门口,他们是问题,同时也是拐点和机会。而此次阿里与清华的合作,核心诉求正是要搬走这两尊山神。

在探索“下一代人机交互”的路上,清华与阿里巴巴将在情感认知计算、实体交互、多通道感知等领域开展研究,不但要让让机器具备听觉、视觉、触觉等综合性的“五感”,还要加强其识别理解人类情感的能力。

假如能通识五感,理解情绪的自然交互方式出现,机器智能将开启的,绝不仅仅是一扇大门。

被忽略的商业价值:“五新”增长元点藏于万物智能

去年年底的时候,我们报道过阿里巴巴十二位科学家对今年科技走势的预测。其中科学家们有一点共识非常值得注意:语音、视觉、传感连接为一体的多模态机器交互技术,将在今年催生万物智能的爆发。

几天之前,阿里在深圳云栖大会上宣布,IoT将成为继电商、金融、物流、云计算之后的第五条主赛道。显然从产业层面印证了科学家们对今年的判断。

这或许说明了,新一代的人机交互并不只是停留在实验室里。而是正在以高调姿态走入产业世界,甚至成为“五新”战略的重要支点。

举个简单的例子,我们就能看到多模态的自然交互在实际生活中多么重要。阿里有一个在地铁站进行语音识别购票的案例。其要解决的核心问题是地铁站中环境嘈杂,要准确识别到购票者语音很不容易。这就要求机器除了进行语音交互,拥有优质的声纹识别、降噪算法之外,还需要进一步确认买票人。阿里的解决方案是在售票机前加入人脸识别装置,通过人脸和唇形识别来判断究竟是谁在买票。

技术分享图片

显然,结合了语音交互和机器视觉、人脸识别的机器智能,很简单就解决了一个生活中极重要的问题,而这个问题似乎又无法用其他方式来解决。事实上,新零售、新制造、新金融的世界中,近乎有无数场景等待着多模态交互的机器智能去攻破。

因为结合了语音、视觉、传感,甚至机器嗅觉和机器触觉的IoT设备,可以无限接近真人来为用户提供服务。在零售和金融服务中,高效的多模态交互结合综合计算、智能推荐技术,可以极大提高服务效率与商业精准度。

而制造业中让机器与人类多模态交互,达到机器像人体一样听话,那么工业效率的提升近乎是难以估计的。家庭、驾驶、城市服务等场景中,如是案例更是不胜枚举。

“五新”想要由旧变新,那么万物智能似乎是不可替代的支撑点。在阿里选择与清华共同研发下一代人机交互的时候,一盘新的商业增长棋局似乎也被阿里带到了我们面前。

机器的因果:我们到底需要AI做什么?

更进一步说,自然交互的价值也不仅仅在于商业世界。就像文章开头中描述的那样,人类最初对AI的恐惧与担忧,是萦绕在AI发展过程中永恒的达摩克利斯之剑。

到底如何达成消解恐惧与技术突破的双赢呢?从率先开展的自然交互进击中,我们似乎能读到一丝阿里的技术观:以人为本,驯服技术,让机器始终是机器。

或许我们经常会联想到AI的失控,是因为很多研究都是以技术为中心。那么随着技术的一点点拓展,很多问题也随之而来:机器道德、黑箱难题、数据灾难,等等。而假如我们以“人到底需要AI和机器来做什么”为出发点,或许就会发现整个技术逻辑在变得不同。

马云说“过去三十年我们让人像机器,接下来三十年我们让机器像人。但归根结底要让人更像人,机器更像机器”,其中隐藏的就是阿里技术逻辑的出发点和归途。

技术分享图片

交互升级,是人类与机器相处的本源命题,从杠杆、轴承、开关,到键盘、鼠标、触屏,交互在一步步向人类舒服的姿势靠拢。而接下来,语言、手势甚至表情,当然是我们控制机器的更合理方式。

这条路上我们最终得到的,是能更好服务人类的机器,而不是人类无法理解的机器。这是一种我们很少去思考的AI观:但假如我们认真思考一下到底发展AI、探索AI是为了什么,或许答案其实很简单:为了让人类过的更好。

只要永远以人为本,机器的因果问题也就迎刃而解。或许这种技术信仰会让少部分科幻和阴谋论爱好者失望,但对于绝大多数人类来说,这是不需要选择的选择——机器会理解我们,并且我们不需要担心ta。


2020智源-京东多模态对话挑战赛开战产学研联合推动ai技术发展

...方式,然而近些年随着语音助手、虚拟数字人、智能服务机器人的普及应用,兼备“视听说”的多模态对话系统,已在零售、客服、金融、媒体、教育、旅游等诸多领域变得越来越重要。为推动跨模态智能对话与人机交互技术发... 查看详情

技术大咖齐聚爱数智慧人机交互技术论坛|cncc2021

CNCC2021【人机交互技术的机遇与挑战】技术论坛将于2021年10月28日13:00-16:00在深圳国际会展中心CC105B召开,本次论坛由CCF主办,爱数智慧创始人兼CEO张晴晴担任论坛主席,邀请来自产学研各界技术大咖,就人机交互... 查看详情

观《怎样成为一个高手》后感

...不是轻松快捷舒适的事情。3、学习要有反馈,要有一个交互 查看详情

阿里云产品-智能语音交互快速测评(代码片段)

...然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。其主要有以下优势:定制识别及发音:可用于客服、阅读、虚拟人等场景易接入:并提... 查看详情

未来十年,人机交互将是重要的发展

编译|禾木木出品| AI科技大本营(ID:rgznai100)机器人市场包括广泛且不断扩大的产品范围。经过多年的合作,可以预测机器人技术和机器人行业的未来发展。根据需求,专业服务应用将占据主要市场份额。客户行... 查看详情

亚马逊云科技助力企业创新,ai新引擎为何成为关键?

摘要:亚马逊云科技强力推出AI新引擎!帮助企业积极应对“乌卡时代”的种种挑战。“乌卡(VUCA)时代”一词在今年的经济峰会或产业峰会上被越来越频繁的提及。作为一种全球性的时代语境,这个概念精... 查看详情

从iaas到ai,马云为何让阿里云去扛人工智能大旗?

免费开通大数据服务:https://www.aliyun.com/product/odps绝大多数人对阿里云的定位仍是国内市场最大的IaaS提供商。不过,随着国内人工智能市场在2016年迎来爆发,阿里开始在人工智能领域发力,阿里云的这一角色正在悄然转变。布... 查看详情

转:it巨头纷纷“卡位”智能语音成人机交互入口必争之地

http://www.cs.com.cn/xwzx/hwxx/201707/t20170712_5368595.html      随着物联网的迅速发展,作为重要接口的智能语音技术已成为国内外IT巨头的必争之地。上周,阿里推出了自己的首款智能音箱产品,百度宣布收购美国语... 查看详情

ai语音对话技术

   机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落... 查看详情

华为机器学习服务语音识别功能,让应用绘“声”绘色

随着人们对生活的仪式感的追求,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统也变得越来越流行。在这些应用上,鼠标、键盘这样的交互方式不再便捷,而语音作为人类之间最自然的交流方式,语音识别技术俨然... 查看详情

当unity实时3d引擎遇上ai虚实交互,unity要成为元宇宙时代的新引擎

游戏引擎巨头Unity,还在为蔚来、小鹏、理想等14家车厂提供智能座舱等解决方案,以及为香港机场、北京城建、海尔卡奥斯提供数字孪生方案。实时3D引擎,也将是元宇宙时代的核心支撑。编辑|宋慧出品|CSDNAI领域的... 查看详情

k8s为何成为大厂标配?

未来的软件,从诞生起,就是生在云上,长在云上的。这个说法绝对不是没有根据的,看看现在的互联网大厂在做的事情,你就知道了: 阿里宣布成立云原生技术委员会,并投入数十亿大力推动阿里... 查看详情

观逻辑思维《怎样成为一个高手》有感

... 在老师的推荐和要求下,今天我看了逻辑思维《怎样成为一个高手》,开头先讲了勤奋,练习两个关键点。他先提出了古语中的“学海无涯苦作舟”和《异 查看详情

观”怎样成为一个高手“有感

通过听罗胖的逻辑思维讲”怎样成为一个高手“,我将自己所听到最重要的内容写下,如下:1.刻意学习。分解学习过程到每一部分,例如就是一栋楼,分解到每一块砖。然后刻意的去反复训练,重复的训练。2.不怕累,不怕苦... 查看详情

阿里云et城市大脑成为国家项目,中国ai换道超车

650)this.width=650;"src="https://s2.51cto.com/oss/201711/17/61eb9ea1d65ce18b44f6c22f97ddd847.jpg-wh_500x0-wm_3-wmp_4-s_1919752967.jpg"title="微信图片_20171117134615.jpg"alt="61eb9ea1d65ce18b44f6c22f97ddd8 查看详情

观《逻辑思维,如何成为一个高手》

...核心概念)!=成功,重复练习的两个目的(1)反复练习成为习惯性思维区(2)掌握练习点背后所隐藏的前辈们的经验4.学习需要有科学的学习方法,分 查看详情

人机交互作业2

刘哲2015080360040这是表格biaoge 查看详情

机械观和系统观的科学思维方式各有什么特点和作用

...5、以形而上学的思维方式认识自然界。6、人与自然都是机器,并且是分立的。机械唯物主义 查看详情