ai语音对话技术

nulige nulige     2022-12-19     198

关键词:

 

  机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落地的第一代产品。

一、语音交互流程简介

AI 对话所需要的技术模块有 4 个部分,分别为:

  1. 自动语音识别(Automatic Speech Recognition, ASR)
  2. 自然语言理解(Natural Language Understanding, NLU)
  3. 自然语言生成(Natural Language Generation, NLG)
  4. 文字转语音(Text to Speech, TTS)

技术分享图片

以叮咚开发文档中的语音交互流程图来看Ai 对话技术的主要路径:

技术分享图片

从上图中可以看到,用户与设备之间的交互,主要是采用语音方式处理和完成的。

二、语音交互流程设计

一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。

1.交互流程的核心—意图

所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。

如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。

  • 用户:七星彩的开奖时间是什么时候?
  • Ai:体育彩票七星彩每周二、周四和周日开奖。

2. 如何识别意图—语义解析

对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。

用户:我要听 周杰伦的稻香

Ai:稻香.mp3

3.如何处理意图—云端交互

调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。

4.上下文意图的处理-对话管理

在用户进行自然对话时,可能会因为表达事情的复

度、时间、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。

用户:明天北京天气如何?

Ai:明天北京天气晴,温度16到23度

用户:后天呢?后天北京天气如何?

Ai:后天北京天气晴,温度17到28度

5,语言合成模块 – 组织语言

根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 同时将生成模块生成的句子转换成语音输出。(把回答的机器语言再转换成 口语语言)

三、 中文自然语言处理的关键技术

1、词法分析

词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。

2、句法分析

句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

3、语义分析

语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

4、语用分析

语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

5、语境分析

语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。

四、 Ai对话目前存在的问题

人机对话过程中,用户难免会出现表达失误的情况,导致机器对用户语言理解出现偏差,在这时,纠错机制对机器而言则非常重要,如缺少这个机制,用户需要花费相当长的时间将其意图解释清楚,相应的用户体验也会十分糟糕。另一方面,虽然可以很好的识别语音,但是却不能理解你的对话目的,语义理解上有偏差。

当前,包括Alexa在内的国内外智能音箱之所以没有表现的那么智能,出现了“人工智障”的嘲笑也是因为在以上两方面没有处理太好。

因此语音交互最终需要解决的关键问题是歧义消解问题,和未知语言现象的处理问题。

五、 智能语音助手背后的生态服务

Amazon Echo 的胜利在于其语音助手 Alexa 掌握的无数技能,Google Assistant 以及Google Home之所以被人看好是在于其 Android 后发优势所具备的开放性。

智能语音助手类的产品要想在中国落地开花,它不仅仅是简单的语音识别那么简单,还有集成服务,一整套的中文生态、内容、服务等配套设施,是一种涵盖很多基础能力的生态系统。

未来基于语音交互的语义技能,必须要能够达到几万、几十万甚至上百万种的时候,才能促使语音交互时代操作系统真正走向成熟,未来语音交互产品的形态和样式也将越来越丰富。

 

达摩院技术创新全景|懂你的语音ai

过去十年,语音AI从实验室走向应用,语音搜索、交互早已融入日常。本文将带你一览达摩院语音AI技术创新全景,一起感受能听、会说、懂你的语音AI。当你在家中与智能音箱进行交互对话,当你使用天猫超市或... 查看详情

语音ai技术简介

语音AI技术(e.g.语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于CV、NLP等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有... 查看详情

语音ai技术简介

语音AI技术(e.g.语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于CV、NLP等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有... 查看详情

语音ai技术简介

语音AI技术(e.g.语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于CV、NLP等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有... 查看详情

azureneuraltts能让ai语音自然逼真到什么程度?

摘要:微软AzureNeuralTTS让AI语音像真人一样富有感情,自然逼真。NeuralTTS(神经网络文本转语音)是微软Azure认知服务的强大语音合成功能,自推出以来,已被广泛应用于从语音助手、新闻阅读到有声读物创... 查看详情

简单剖析智能语音交互技术

机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能。人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中。语音交互是未来的发展方向。智能扬声器是语音交互着陆的第一代产品... 查看详情

人工智能1.语音合成,语音识别,相似度,图灵机器人,智能对话(代码片段)

目录一.准备工作(基于百度ai) 二.语音合成 三.语音识别 四.相似度五.图灵机器人 六.识别+合成+图灵七.智能对话  一.准备工作(基于百度ai)  1.创建应用① ②  ③  ④    2.用pytho... 查看详情

bixby的ai语音,能否推进人机交互进程?

文丨朱翊在输入法正式应用于人机交互方式之后,语音输入技术也逐渐成为整个业界关注的焦点。2011年苹果公司推出的Siri作为第一款智能手机语音交互技术,一定程度上为整个智能手机的语音交互趋势掀开了序幕,但Siri只能通... 查看详情

仅用1/4数据量还原真人语音100%细节,火山语音上新超自然对话语音合成技术...

...f0c;发来上述这段音频的小伙伴表示:这段对话居然是语音合成的!提到“语音合成”,你脑海中可能会出现这样的种种:导航中种类丰富但语 查看详情

手机对话中的语音处理

...dn.net/yhl_leo/article/details/50359479上一篇:博客手机对话中的语音处理(二)讲述了有声语音利用LP模型进行语音合成的整个流程,本文将讲述LP预測合成技术在无声语音(即噪声)中的使用。2.230毫秒无声语音的LP合成从上篇博客的... 查看详情

ai改变千行万业,开发者如何投身ai语音新“声”态

...质检等。随着机器学习模型的发展强大,AI正在用于语音等更复杂的信息识别,并逐渐应用于智能家居语音控制、智能交互等场景。不过,快速发展的AI应用和机器学习模型,既是技术发展的焦点,也需要投入... 查看详情

基于linux平台下的语音管家jarvis

语音管家Jarvis1.项目简介2.项目技术点3.项目基本执行流程1.项目简介使用C++编写一个智能AI对话和语音命令执行的语音管理工具借助图灵机器人和百度语音识别和合成等第三方平台和第三方工具除基本交流功能外还可以执行... 查看详情

基于百度ai开放平台的人脸识别及语音合成(代码片段)

基于百度AI的人脸识别及语音合成课题课题需求(1)人脸识别在Web界面上传人的照片,后台使用Java技术接收图片,然后对图片进行解码,调用云平台接口识别人脸特征,接收平台返回的人员年龄、性别、颜值等信息,将信息返... 查看详情

国产智能ai对话:技术狂潮之下,要有梦元宇宙正在改变世界

最近,人工智能组织OpenAI推出的大模型智能AI对话系统在中国爆火,让大家开始关注人工智能行业。而要有梦团队深耕数字科技产业多年,基于平台深厚的元宇宙综合技术沉淀,创新推出国产人工智能:要有梦... 查看详情

问答知识库快速构建技术解析及行业实践

...规模化应用的落地。比如:智能客服、外呼机器人、语音助手等产品应用。据艾瑞 查看详情

对话腾讯天琴董治:聊聊元宇宙与ai技术驱动虚拟人

热度只增不减的元宇宙,让众多互联网公司为之不惜加码,投入大量的人力、物力和财力,从不同角度切入元宇宙这条新赛道。对此,我们很荣幸地邀请到了腾讯音乐天琴实验室,计算机视觉负责人董治老师&#... 查看详情

全球对话式ai平台评估报告出炉gartner:百度位居领先阵营

百度的对话式AI领先能力获世界级认可。近日,全球权威的技术研究与咨询机构Gartner发布《竞争格局报告:对话式AI平台》报告,百度成为国内唯一入围的供应商,在对话式人工智能领域处于市场领先地位。▲ Gar... 查看详情

回顾2018年的ai技术发展,巨头公司正面临着越来越多的限制

...谷歌I/O大会上,谷歌CEOSundarPichai演示了能打电话订餐厅的语音助手Duplex,高度智能和拟真的表现让其被评价为今年I/O大会上最亮眼的一个新功能。但谷歌在会后即遭到多方质疑,他们认为在未事先声明的情况下,电话的另一端与... 查看详情