google智能助理,支持多种语言功能!

yujingyua yujingyua     2022-12-31     505

关键词:

文 /?副总裁 Johan Schalkwyk 和 Google Speech 工程师 Ignacio Lopez Moreno

 

多语言家庭正变得越来越普遍,一些数据来源 [1][2][3] 表明,多语言使用者的人数已超过单语言使用者,而且这一数字还会继续增长。鉴于多语言使用者人群庞大且不断增加,与以往相比,我们更需要使 Google 开发产品能够同时支持多种语言,以便更好地为用户服务。?

今天,我们将推出 “Google 智能助理” 的多语言支持功能,让用户在查询时可以切换两种不同的语言,而无需返回语言设置。用户从英语、西班牙语、法语、德语、意大利语和日语中选择两种受支持的语言后,便可使用其中任意一种语言与 “智能助理” 对话,而 “智能助理” 会以相同的语言回应。之前,用户需要为 “智能助理” 选择一种语言设置,而每当他们想使用另一种语言时,便需要更改设置,但现在,多语言家庭无需动手,即可享受简便的体验。?

 

技术分享图片

“Google 智能助理” 现在能够识别语言、解读查询内容,并使用正确的语言作出回应,而且用户无需触摸 “智能助理” 设置,便可完成这些操作

 

然而,实现这项强大的功能却并非易事。事实上,我们付出多年的努力解决了诸多难题。最终,我们将问题拆分成三个独立的部分:识别多种语言、理解多种语言,以及为 “Google 智能助理” 用户优化多语言识别。

 

 

识别多种语言

当有人在说另一种语言时,即使我们自己并不说这种语言,也能够识别出来,只要注意语言的声学效果(语调、音域等),便可做到这一点。但是,即便有了完整自动语音识别系统的帮助,定义自动口语识别的计算框架也非常具有挑战性?1。在 2013 年,Google 开始使用深度神经网络 [4][5] 来研究口语识别 (LangID) 技术。如今,借助递归神经网络,我们最先进的 LangID 模型可以在超过 2000 个备选语言对中识别各种语言对。作为其中一类神经网络,递归神经网络在解决序列建模问题上尤为有效,例如语音识别、语音检测、语者识别等方面的问题。我们遇到的挑战之一是如何处理更大的音频集,这需要获取能够自动大规模理解多种语言的模型,并且达到可以让这些模型正常运作的质量标准。

 

 

理解多种语言

要同时理解多种语言,便需要并行运行多个进程,且每个进程产生增量结果,从而使 “智能助理” 不仅能够识别用户提出查询时所使用的语言,还可以解析查询以创建可操作指令。举例来说,即使是在单语言环境中,如果用户要求 “设定下午 6 点的闹钟”,则 “Google 智能助理” 必须理解 “设定闹钟” 的意思是打开闹钟应用,输入 “下午 6 点” 的显式参数,而且还要推断出闹钟应该设在今天。要对受支持语言的任何给定语言对执行这项操作可谓一项挑战,因为 “智能助理” 执行与在单语言情况中相同的工作,但现在必须额外启用 LangID,并且不只是一个,而是同时运行两个单语言语音识别系统(在本篇博文的稍后部分,我们会进一步说明当前两种语言的限制)。?

重要的是,我们需要在几毫秒的时间内评估 “Google 智能助理” 和用户查询中提及的其他服务异步生成的实时增量结果。我们借助另一种算法来完成这项工作。该算法使用由 LangID 产生的候选语言概率、我们的转录置信度和用户偏好(例如最喜欢的艺术家),对两个语音识别系统中每个系统提供的转录假设进行排名。?

 

技术分享图片

我们用于 “Google 智能助理” 的多语言语音识别系统与标准单语言语音识别系统示意图。排名算法用于根据有关用户和增量 LangID 结果的相关信息,从两个单语言语音识别器中选择最佳识别假设

 

当用户停止讲话时,模型不仅可确定用户所说的语言,还能解读用户的说话内容。当然,这个流程需要复杂的架构,因而会增加处理开销,而且可能会造成不必要的延迟。?

 

 

优化多语言识别

为了尽可能降低这些不良影响,系统能越快确定所说的语言就越好。如果系统在用户查询结束前就可以确定所说的语言,则系统会忽略识别器以停止处理用户的语音并舍弃忽略的假设,进而降低处理开销,并减少任何潜在的延迟。考虑到这一点,我们发现了几种优化系统的方法。?

我们考虑的一个用例是人们通常在查询中使用同一种语言(用户通常也希望 “智能助理” 使用该语言作出回应),除非所查询实体的名称使用不同语言。这意味着,在大多数情况下,即使句子中包含使用不同语言的实体,“智能助理” 也可以通过关注查询的第一部分来对所说的语言作出初步猜测。借助这种早期识别,我们可以通过切换到单个单语言语音识别器来简化任务,这与我们处理单语言查询一样。然而,快速决定如何以及何时切换为单一语言需要最终的技术整合:具体来说,我们使用随机森林技术来结合多个情境信号,例如所使用的设备类型、所发现的语音假设数量、我们接收类似假设的频率、单个语音识别器的不确定性,以及每种语言的使用频率。

我们用来简化和提升系统质量的另一个方法是限制用户可以选择的候选语言列表。用户可以在我们的家居设备目前支持的六种语言中选择两种,如此一来,我们就可以支持大部分多语言使用者。不过,我们还在继续改进技术,希望接下来可以解决三语支持问题,因为我们深知这会进一步提升不断增长的用户群的体验。

 

 

从双语支持到三语支持

从一开始,我们的目标就是让 “智能助理” 可以自然地与所有用户对话。多语言支持是用户翘首以待的功能,也是我们团队几年前就提上日程的项目。然而,现在全球不只有许多双语使用者,中年服装还有使用三种语言的用户,或使用两种以上语言的家庭,我们也想让他们的生活更加便利。?

今天的更新让我们走上正轨,是我们先进的机器学习技术、语音和语言识别技术,以及我们团队为优化 LangID 模型所作出的努力让这一切成为可能。目前,我们正在努力教导 “Google 智能助理” 如何同时处理两种以上的语言,并致力于在日后添加更多受支持的语言 —?敬请期待!?


 

1:人们通常认为,口语识别比基于文本的语言识别更具挑战性,后者只需要基于字典的相对简单技术就能出色地完成工作。语音内容的时间/频率模式很难加以比较,而且由于用户在讲话时可以不加停顿,语速也有所不同,并且麦克风除了录制语音以外还会保留背景噪声,因此确定语音内容也更加困难。

 

 

更多 AI 相关阅读:

·?Dopamine - 灵活、可重复的强化学习研究新框架

·?利用 Universal Transformer,翻译将无往不利!

·?Google 最新推出了 The Lever,分享应用机器学习的最佳案例

 

 


文章来源:https://blog.csdn.net/jILRvRTrc/article/details/82598491











esp小米是啥硬件

...网硬件,它是一种低成本,低功耗的WiFi模块,它可以将智能设备连接到互联网。它还可以用于智能家居,智能安防,智能家电,智能汽车,智能照明,智能监控,智能家庭等等。它的主要功能是支持WiFi网络,支持数据传输,支... 查看详情

iPhone 支持多种语言

】iPhone支持多种语言【英文标题】:iPhonesupportMultipleLanguages【发布时间】:2011-01-0406:40:37【问题描述】:在我的项目中,我需要支持韩语。这怎么可能-任何人都可以用例子简要解释一下,是否可能?【问题讨论】:复制:***.com/... 查看详情

sh此bash脚本为在raspberrypi3上运行的google智能助理创建系统单元文件和启动文件。还启用并启动(代码片段)

查看详情

googleanalytics(ga)推出新助理功能

虽然Google被墙了,但还是好多公司正在使用Google的服务。比如,很多公司用GoogleAnalytics(简称GA)来收集分析用户行为数据,以指导企业运营方向和产品路线。用过GA的人都深感GA的强大,但如果对数字没有sense,不具备数据分析... 查看详情

寻找支持多种功能的开源 PHP 电子商务系统 [关闭]

】寻找支持多种功能的开源PHP电子商务系统[关闭]【英文标题】:Lookingforanopen-sourcePHPe-commercesystemthatsupportsanumberoffeatures[closed]【发布时间】:2011-08-0220:28:57【问题描述】:我希望它具有以下功能:支持多种语言允许管理员定义折... 查看详情

Google 助理自定义命令 |嘿 Google,打开我的应用页面

】Google助理自定义命令|嘿Google,打开我的应用页面【英文标题】:GoogleAssistantCustomCommands|HeyGoogle,OpenMyApp\'spage【发布时间】:2019-04-0507:25:35【问题描述】:我想在谷歌助手中通过语音控制打开我的安卓应用的特定页面。我读了一... 查看详情

支持中英文自由说访谈自动整理,新一代会议ai助理“听悟”升级发布

...月4日,2022杭州云栖大会,阿里巴巴达摩院研发的智能产品“听悟”进阶版亮相大会现场。仅需一台个人电脑,观众和媒体记者们即可体验全面集成达摩院语音语言智能的最新AI助理,感受会议场景的前沿AI实践。... 查看详情

在线答题刷题,创建题库智能组卷,更高效!

...f0c;已经逐渐专为线上考试,线上考试有着快速刷题、智能组卷、自动分析等多种优势功能。搭建这样的在线考试系统也十分容易,今天就一起看一下在线刷题的一些功能。1、多种试题类型系统支持多种题型,单选、... 查看详情

在线答题刷题,创建题库智能组卷,更高效!

...f0c;已经逐渐专为线上考试,线上考试有着快速刷题、智能组卷、自动分析等多种优势功能。搭建这样的在线考试系统也十分容易,今天就一起看一下在线刷题的一些功能。1、多种试题类型系统支持多种题型,单选、... 查看详情

pda是个人数字助理的英文写

...写,为了实现诸多功能,一般使用可安装软件操作系统。智能手机是具备扩展能力,一般是有操作系统的手机。由于两者操作系统常常是相同的,所以很多功能也是相同的。但pda不一定具备手机功能。不过,随着科技创新,跨界... 查看详情

智能系统一键阅卷,智能判分,节省人力物力财力

要说在线考试什么两点最吸引用户,肯定是智能系统+实用功能。用户在使用过程中普遍要求快速创建、智能分析、稳定系统以及较低成本,种种条件都是在线考试系统角逐的基础。在线考试系统,稳定可靠、功能... 查看详情

智能系统一键阅卷,智能判分,节省人力物力财力

要说在线考试什么两点最吸引用户,肯定是智能系统+实用功能。用户在使用过程中普遍要求快速创建、智能分析、稳定系统以及较低成本,种种条件都是在线考试系统角逐的基础。在线考试系统,稳定可靠、功能... 查看详情

python和go语言的区别总结

...雅务实,简单而强大,适合新手和专业人士的编程。Python支持多种编程范例,并提出了一个大型标准库,包括面向对象,命令式,功能性和程序性。Go是什么?Go是一种通用编程语言,由Google设计;它借鉴了许多其他许多好主意... 查看详情

esp32的wifi模块叫什么

...Java,Lua等。它拥有4MB的Flash存储,可以支持多种应用,如智能家居,智能安防,智能安全,智能家电,智能照明,智能健康,智能运动,智能游戏,智能家庭,智能环境等。参考技术A您好,esp32的wifi模块叫做ESP32-WROOM-32,它是一... 查看详情

在 Android Auto 应用中自定义 Google 助理

】在AndroidAuto应用中自定义Google助理【英文标题】:CustomizeGoogleAssistantinAndroidAutoapp【发布时间】:2019-06-2512:38:42【问题描述】:是否可以在AndroidAuto媒体应用中自定义Google助理体验?我正在构建一个正在播放新闻(广播试听、播... 查看详情

thrift和googleprotobuffer各有啥优劣

...呵呵,停止八卦,言归正传。观察法看到的优缺点Thrift:支持的语言更广泛一些c++,java,python,ruby,csharp,haskell,ocmal,erlang,cocoa,php,squeak(真够变态的)protobuf目前还是只支持c++,java,python,其他语言有待开发.Thrift提供的功能更丰富一些:Thrift... 查看详情

边缘网关5g/4g高速低延时智能网关

计讯物联边缘网关,支持全网通5G/4G网络,数据边缘处理满足工业等物联网场景高速率低延时多接入量的自动化数字化管理。  边缘网关功能特点  边缘网关部署在网络边缘侧的网关,通过网络联接、协议转换等... 查看详情

多种汉语方言语音落地应用,微软智能语音解锁更多交互场景

多年来,微软持续探索AI语音合成与识别技术,获得了大量成果:AzureNeuralTTS(text-to-speech,语音合成)与STT(speech-to-text,语音识别)支持的语言区域达到140余个,并支持超过400多个音色ÿ... 查看详情