正文

克隆真人语音只要1句话，ai问诊超96.4%全科医生！科大讯飞年度黑科技大秀，余承东都来了...

QbitAl  QbitAl  2023-01-20  169

关键词：

杨净萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

企业拥有265万开发者是一种什么体验？

是在最新财报上已经商业变现，开放平台营收增速高达131%？

是连续5年在合肥振臂一呼，全球就迅速响应？

当然，这还不是全部。

在这一次开发者节上，科大讯飞董事长刘庆峰向全球开发者，摊开过去一年答卷。

科大讯飞AI开放平台，至今已有441项核心技术；
每个月平均新增9万开发者团队，其中工业应用占比达到60%；
医疗AI系统一年给出97万份修正诊疗结果……

而像“遇强则强，遇弱则弱”的围棋机器人、1分钟定制专属AI数字人、3秒判断声音画像等这些技术成果更是成为展区的爆款！

第五届全球开发者节究竟有何看头？现在就带你一文看尽。

科大讯飞最新技术成绩

今年1024开发者节上，最先登场的科大讯飞董事长刘庆峰披露了取得的一系列最新成绩。

其一，AI健康咨询准确率超过绝大部分全科医生。

在你就诊时，健康咨询AI系统会根据你的相关健康状况，推荐你去对应医院找专家就诊。据刘庆峰介绍，目前科大讯飞的健康咨询AI系统，已经超过96.4%的通过国家考试的全科医生。

其二，医疗AI系统一年给出97万份修正诊疗结果。

在过去一年中，科大讯飞的AI辅助诊疗系统，协助修正了97万份安徽省基层医生看病的诊疗初步结果。依赖于科大讯飞的医疗AI辅助诊疗系统，安徽基层医生合理诊断度已经从70分提升到了80分，整体系统准确率已经达到97%以上。

其三，AI开放平台核心技术达到441项。

2010 年，科大讯飞开放平台正式上线，集成了语音合成、语音搜索、自然语言处理和语音听写等多项能力，成为当时行业内开放最早的智能语音平台。如今，科大讯飞已经从最初的3项核心技术，进化到今天具备的441项核心AI能力与方案。

其四，1句话就能语音合成1个人的声音。

据刘庆峰介绍，科大讯飞正在不断的持续打造人工智能的核心技术的领先引擎，包括无监督训练等技术，让机器用更小的数据、更少的标注学习更多的知识，现在在语音合成上已经实现一句话就能模仿一个人的音色。

在小语种识别上，科大讯飞提出的统一空间表达的半监督语音识别技术，使得研究人员只用100个小时的有监督语音和无标签文本数据训练，就能达到之前10000小时有监督语音数据训练的效果。

其五，用AI让学生无效作业时间平均降低50%。

据刘庆峰介绍，科大讯飞在安徽合肥率先用人工智能助力“双减”，利用AI复杂系统，结合OCR自动评分、语音推理等技术，分析学生的学习情况，对过程性作业考试数据进行评价，精准给予指导，将孩子的无效作业时间平均降低了50%。

这一系列亮眼的成绩之上，刘庆峰公开了科大讯飞AI开放平台2.0战略，共包括6大措施：

刘庆峰表示，行业关键问题，需要各行业的人共同努力：

开发者可以不了解AI技术，只要有灵感、创意和想象力，就可以加入到AI开放平台2.0来。

只有生态的繁荣，才能决定AI的未来。

AI开放平台2.0升级

接下来，基于过去5年的开发者生态积累，科大讯飞总裁吴晓如提出1024计划5.0——用系统性创新，打造人工智能产业新生态。

当中最重要的部分，就是AI开放平台2.0的发布。

与过去1.0相比，简单来说，就是二维到三维的升级。

以往的解决方案，都是单向提供给创业伙伴，但随着人工智能逐渐向传统产业落地，需要解决的问题更为复杂，需要系统性架构来解决。

既然如此，就需要与行业龙头打造基线底座模型，再与上下游合作伙伴展开合作，形成完整的行业方案。

以智慧农业为例。

讯飞就与中国农业大学展开合作，共同研发预测生产模型、浇水施肥模型等，然后提供给传感器等上下游供应商，共同将方案提供给业内的合作伙伴。

目前，科大讯飞首次推出18个行业，并表示将每年投入5亿研发基金，服务100万开发者。

既然如此，那该如何推动开放平台2.0的战略？有四大维度。

1、与高校合作开设人工智能专业，目前已经开发339门课程，培养超60万开发者。

2、与合作伙伴筹建智能语音创新中心，为每个行业制定标准测试环境。

3、举办顶尖赛事，选出行业标杆。正如此次1024开发者节，就举办了兼具行业应用、学术研究、公益等105个赛道赛事，共有两万多支队伍报名。

3、孵化创新企业，提供优质资源。除了中国声谷之外，讯飞在全国共有十余家双创基地。

四大技术方向突破

接着，科大讯飞高级副总裁、AI研究院院长胡国平，就分享了四大技术方向的突破。

嗯，实际上就是去年发布的“AI科技树”，今年已然开出一些果来。

第一项，端到端建模技术。

这项技术将前端多路信号直接同步输入到后端声学模块，来实现更精细的建模，可实现复杂（比如嘈杂环境）场景下的一体化语音识别、语音翻译等。

在语音识别上，以卖场为例，这项技术成功将只有35%的语音识别准确率，提升到了88%；同时语音唤醒的成功率，也成功从40%提升到了90%。

在语音翻译上，科大讯飞还成功在IWSLT国际口语机器翻译大赛的同传任务上，包揽了三个赛道的冠军。

第二项，无监督训练技术。

为了降低对语音合成数据规模的要求，科大讯飞提出了听感量化编码，充分借助语音识别数据来合成音库，成功实现了多人混合模型训练。

在小语种识别上，提出的统一空间表达的半监督语音识别技术，使得只用100个小时的有监督语音和无标签文本数据，就能达到之前10000小时有监督语音数据训练的效果。

在语音合成上，利用无监督训练甚至实现了发音内容、情感和音色分别可控的效果，例如1句话合成语音、方言自由切换等等……

注意，不止是普通的四川和合肥话，科大讯飞甚至开放了6种船新的少数民族语种：

第三，多模态融合技术。

在人机交互上，现在甚至已经不需要唤醒词了，机器会看到你的嘴型，从而自动判断你“是否在对它说话”，并自动做出应答，误唤醒率降低到0.01%。

在复杂文档（例如试卷）识别上，多模态技术会结合OCR、手写数学公式识别等技术，将一张纸上的所有信息准确识别出来，已经实现教辅作业批改准确率从92%进化到98%的效果。

第四，外部知识融入技术。

我们都知道，做语音交互的AI总是有点“呆”，这是因为它们虽然学习了不少技术知识和新科技，但对人类的一些常识掌握得却还不够深。

为了提升AI在这方面的“人情味”，科大讯飞特意将人类的常识和知识整理成一个事理图谱。

像儿童玩具交互场景中，就包括“抢玩具”“收拾玩具”这样具体的动作，让它知道人类平时会做、会说的事情。

这样，在面对小朋友乱抛玩具时，AI就能从容说出“来收拾一下玩具”这样的语句，而不是只会帮小朋友一遍遍亲自收拾玩具。

又例如电子病历场景下，运用外部知识融入技术也能让AI学习到人类医生看病的经验，最终将罕见病诊断率从87%提升到了93%，整体病情判断准确率从92%提升到了95%。

两大平台+生态助力产业

最后面向合作伙伴，科大讯飞交出自身探索成果——

两大平台+两大生态。

首先是企业数字化平台的发布和虚拟人交互平台的开放。

简单来说，这个企业数字化平台其实是原来的AI开放平台基础上，配置了RPA引擎，从而具有智能化、自动化（RPA）、低代码、流程管理等特性。

以智能招聘为例，这位“虚拟小助理”可以在前期分发信息、电话通知等重复性工作上替代HR的工作，据称流程至少提效10倍。

除了企业数字化平台的发布以外，还开放了虚拟人交互平台。

值得一提的是，在传统意义上开放给开发者外，还接受声音、形象提供者提供相应的数据，以应用于各类应用场景。

实际上，在过去一年里，这个交互平台已经在400+个企业客户进行试点，应用在了新闻生产、企业客服、泛娱乐营销等场景，新增54个形象，汇集了4988份声音。

接着，就是科大讯飞过去一年中成绩最显著的两大生态：教育+城市。

在教育生态上，科大讯飞今年提出了三大计划，包括教育科研基金资助计划，即在未来三年投入1个亿的科研基金，开展前沿的理论与应用的研究；

此外合作伙伴联合创新计划，设立创新孵化投资基金，每年投入1亿元，技术上提供300人以上的技术和市场领域的专家服务；

还有教学教研联盟的公益计划，预计新增建设10个区域联合教研机构、100所名校联盟新增合作校，推动内容共创平台新增骨干教研员1万名。

在城市生态上，据科大讯飞高级副总裁张友国表示，科大讯飞预计在2025年的智慧城市中，实现一年销售收入150亿，在“十四五”期间实现约500亿收入，其中预计60%（约300亿）的收入，科大讯飞都会分享给生态合作伙伴。

人工智能的未来：由表及里的生态

一天发布会下来，听到最多的一个关键词就是生态。

随着浪潮向前，人工智能不再像此前那般是一个触不可及的概念，而是真正普惠于民、用之于民的全民技术。

“帮助每个人、陪伴每个人、更懂每个人”，这是科大讯飞所描述的AI未来。

而预见未来最好的方式，就是共创未来。

去年这个时候，刘庆峰在演讲的最后提到，唯有生态，才能生生不息。

今年开发者节上，“生态”的味道更加明晰，从技术、到产业，再到开发者从内到外全面渗透。

作为一家上市13年的老牌企业，正在用这种方式去完成人工智能产业的全面盛放。

One More Thing

对了，在本次开发者节上，还有其他意想不到的亮点。

比如，安徽人余承东回到家乡，在父老乡亲面前“带货”。（手动狗头）

只要5秒就能“克隆”本人语音！美玉学姐不再查寝，而是吃起了桃桃丨开源

...箫发自凹非寺量子位报道|公众号QbitAI现在，AI已经能克隆任意人的声音了！比如，前一秒的美玉学姐还在宿舍查寝：后一秒就打算吃个桃桃：简直就是鬼畜区的福利啊！（像我们后面就试着白学了一下... 查看详情

python实现ai拟声:5秒内克隆您的声音并生成任意语音内容(代码片段)

特性🌍 中文支持普通话并使用多种中文数据集进行测试：aidatatang_200zh,magicdata,aishell3,biaobei,MozillaCommonVoice,data_aishell等🤩 PyTorch 适用于pytorch，已在1.9.0版本（最新于2021年8月）中测试，查看详情

仅用1/4数据量还原真人语音100%细节，火山语音上新超自然对话语音合成技术...

数星星盼月亮，万千杰迷苦等6年，不久之前终于等到周董发新专辑啦！一经上线引爆全网讨论，就像这样：正当大家沉浸在对那时青葱岁月的美好追忆时，发来上述这段音频的小伙伴表示：这段对话居... 查看详情

ai圈内卷？天池团聚请来专家集体“问诊”

简介：近期杭州云栖大会上出现了一个“数据博物馆”，最吸引眼球的“展品”，竟是行业大规模开源数据集。不仅数量多达上百个，还覆盖零售、文娱、工业、医疗、自然科学等数十个行业。既有来自真实业务... 查看详情

ai圈内卷？天池团聚请来专家集体“问诊”

简介：近期杭州云栖大会上出现了一个“数据博物馆”，最吸引眼球的“展品”，竟是行业大规模开源数据集。不仅数量多达上百个，还覆盖零售、文娱、工业、医疗、自然科学等数十个行业。既有来自真实业... 查看详情

智能信息化基层医疗解决方案——捷迅科技医号馆

...还增设医疗器械投放，药品商城医责险这三大特色，在线问诊可实现医生在线对患者进行诊断，使诊断更加方便。采用云存储服务，数查看详情

实时音频编解码之十九基于ai的语音编码（lpcnet）

...视频效果。SatinSatin是微软于2021年2月官宣的一款基于AI的语音编码器，其目标是替代Silk编码器，Silk是Skype使用的语音编码器，Opus中LPC部分也是基于Silk编码器，Satin的特性如下：从6kbps开始可以支持超带宽语音从17kbps开始可以支持... 查看详情

小冰超级自然语音技术发布！pk真人真假难辨，同时获独角兽轮融资

...bitAI先来听一段歌：你能听出来，这其实是小冰和真人共同演唱的吗？蓝色为小冰，白色为真人，是不是非常难以分辨？这背后就是小冰今天发布的全新超级自然语音技术。该技术首次将人工智能语音自然... 查看详情

体验百度easyedge，畅快部署超多ai芯片

...个产业已经落地了诸多应用，我们熟知的自动驾驶、语音助手，背后就大量运用了AI技术。当下，PaddlePaddle、TensorFlow、PyTorch这样的开源框架已经非常强大，为部署侧也提供了相关的开源组件&# 查看详情

github标星近1万：只需5秒音源，这个网络就能实时“克隆”你的声音

作者|Google团队译者|凯隐编辑|Jane出品|AI科技大本营（ID：rgznai100）本文中，Google团队提出了一种文本语音合成（texttospeech）神经系统，能通过少量样本学习到多个不同说话者（speaker）的语音特... 查看详情

清华虚拟学生被质疑真人ai换脸？公司第三次回应：面部置换并非仅仅ai换脸

...f0c;近日，清华虚拟学生华智冰弹唱视频再次被质疑是真人拍摄。对此，小冰公司第三次通过其官方微博发布声明称：华智冰演唱视频中的肢体视频模板来自小冰团队成员鱼子酱酱视频，是从开始就清楚说明的࿰... 查看详情

azureneuraltts能让ai语音自然逼真到什么程度？

摘要：微软AzureNeuralTTS让AI语音像真人一样富有感情，自然逼真。NeuralTTS（神经网络文本转语音）是微软Azure认知服务的强大语音合成功能，自推出以来，已被广泛应用于从语音助手、新闻阅读到有声读物创... 查看详情

“ai问诊就是抛硬币”！甚至漏掉67%病患，nature都看不下去了

詹士Alex发自凹非寺量子位|公众号QbitAI“AI的一些医疗决策，实际上就是抛硬币。”哈佛医学院的数据科学家Kun-HsingYu语出惊人。他还补充道：即便比赛中正确率达90%的获奖模型，再用原数据集子集测试时，准确度... 查看详情

2023yestar艺星品牌数字盛典，助推中国医美数字前行！

...超级星发布,不仅又一次见证了艺星品牌的创新力量,更是医美行业在数字化生态建设的一次全新探索,成为了行业链接元宇宙概念的又一次突破!本次品牌数字盛典以直播形式发布,汇集了诸多精彩看点,被百万网友点赞。盛典包含了... 查看详情

unity语音识别(百度ai长语句语音识别&unity原生短语语音识别)(代码片段)

Unity语音识别[百度AI语音识别&Unity原生短语语音识别]一、百度AI语音识别1.代码块讲解2.操作流程3.主要功能完整代码二、Unity原生语音识别主要功能完整代码三、Button长按点击方法的重写1.主要功能完整代码2.使用方法三、工程... 查看详情

中医美容美体经络理疗全科班

中医美容美体经络理疗全科班一、美容师职业素养篇1.美容师职业素养篇2.美容师的自我定义3.美容院工作流程4.美容师的职业和义务5.美容师职业手操6.美容师专业站坐姿二、美容师面部管理篇1.面部基础理论学2.认识皮肤以及皮... 查看详情

ar化妆镜？而且还能语音识别？

...Houndify集成至ModiFace的AR智慧镜软件中，用户能通过语音和真人视频来与这块“魔镜”使用。AR编辑器最新的语音支持SmartMirror软件可用于美容店内和智能手机AR应用之中。借助查看详情

《飞链云真实ai模特解决方案》

...实AI模特飞链云AI通过视觉和图形相关的神经算法，无需真人模特，达到甚至超越真人模特拍摄的效果。通过选择项，选择不同的模特、场景、装饰、光影、身高、胖瘦等，将衣服“穿”到选择的模特身上。此处的模特、场景、... 查看详情

正文

克隆真人语音只要1句话，ai问诊超96.4%全科医生！科大讯飞年度黑科技大秀，余承东都来了...

杨净 萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

科大讯飞最新技术成绩

AI开放平台2.0升级

四大技术方向突破

两大平台+生态助力产业

人工智能的未来：由表及里的生态

One More Thing

只要5秒就能“克隆”本人语音！美玉学姐不再查寝，而是吃起了桃桃丨开源

python实现ai拟声:5秒内克隆您的声音并生成任意语音内容(代码片段)

仅用1/4数据量还原真人语音100%细节，火山语音上新超自然对话语音合成技术...

ai圈内卷？天池团聚请来专家集体“问诊”

ai圈内卷？天池团聚请来专家集体“问诊”

智能信息化基层医疗解决方案——捷迅科技医号馆

实时音频编解码之十九基于ai的语音编码（lpcnet）

小冰超级自然语音技术发布！pk真人真假难辨，同时获独角兽轮融资

体验百度easyedge，畅快部署超多ai芯片

github标星近1万：只需5秒音源，这个网络就能实时“克隆”你的声音

清华虚拟学生被质疑真人ai换脸？公司第三次回应：面部置换并非仅仅ai换脸

azureneuraltts能让ai语音自然逼真到什么程度？

“ai问诊就是抛硬币”！甚至漏掉67%病患，nature都看不下去了

2023yestar艺星品牌数字盛典，助推中国医美数字前行！

unity语音识别(百度ai长语句语音识别&unity原生短语语音识别)(代码片段)

中医美容美体经络理疗全科班

ar化妆镜？而且还能语音识别？

《飞链云真实ai模特解决方案》

杨净萧箫发自凹非寺
量子位报道 | 公众号 QbitAI