github3.6k,百万年薪程序员都在使用的语音识别项目,不容错过!

Python小二 Python小二     2022-12-01     785

关键词:

智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。

飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用!

PaddleSpeech 自开源以来,就受到了开发者们的广泛关注,关注度持续上涨。

在此过程中,我们也根据用户的反馈不断升级,推陈出新,优化用户体验。

本次, PaddleSpeech 1.0 版本正式发布,为开发者带来了四项重要升级

  • 全新发布 PP-TTS :业界首个开源端到端流式语音合成系统,支持流式声学模型与流式声码器,开源一键式流式语音合成服务部署方案。

  • 全新发布 PP-ASR :开源基于上万小时数据的流式语音识别系统,开源一键式流式语音识别服务部署方案。支持 Language Model 解码和个性化语音识别。

  • 全新发布 PP-VPR :开源全链路声纹提取与检索系统,10分钟轻松搭建产业级系统。

  • 一键服务化能力:语音识别、语音合成、声纹识别、声音分类、标点恢复,一键部署五项核心语音服务。

  项目传送门  

点击文末阅读原文一键GET!

https://github.com/PaddlePaddle/PaddleSpeech

以下为本次发布内容详细解读。

01

PP-TTS

业界首个开源端到端流式语音合成系统

语音合成是机器“说话”的“嘴巴”。随着深度学习技术的发展,采用端到端神经网络进行语音合成的效果相较于传统技术有了极大的提升,但是端到端语音合成的响应时间长,在实时性要求较高的场景中难以满足业务需求。

如在实时交互的虚拟数字人应用中, 需要虚拟人对用户指令快速做出应答,否则会消耗用户的耐心、降低用户体验,此时就需要流式语音合成系统,在保障合成质量的同时,提高响应速度、提升交互体验。

PaddleSpeech 全新发布的 PP-TTS ,提供了一键式部署流式语音合成系统的方案,解决了在语音合成技术应用过程中,响应时间长、落地困难的问题。

流式推理结构,降低平均响应时延

以声学模型 FastSpeech2 、声码器 HiFi-GAN 为例, PP-TTS 对 FastSpeech2 的 Decoder 模块进行了创新,替换了 FFT-Block 为卷积结构,创新性地提出了基于 FastSpeech2 结合 HiFi-GAN 的流式推理结构, 以 Chunk 的方式进行流式推理,可以使声学模型和声码器的输出与非流式推理保持一致。

PP-TTS 的流式语音合成可以在保证合成质量的前提下,大幅降低平均响应时延:

测试环境:测试用例为 CSMSC 数据集后100条, CPU 为 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz

相较于端到端非流式合成, PP-TTS 流式合成的平均响应时延降低了97.4%,即使在普通的 CPU 笔记本上也能够实时响应。

文本前端优化

PP-TTS 提供了针对中文场景的语音合成文本前端优化方案:针对时间、日期、电话、温度等常见非标准词进行了文本正则化处理;开源了针对中文场景的轻声变调、三声变调和“一”“不”变调等字音转换( G2P )解决方案。在自建的文本正则化测试集上, CER 低至0.73%;以 CSMSC 数据集的拼音标注为 Ground Truth ,字音转换( G2P )的 WER 低至 2.6%。

基于 PP-TTS 优越的文本前端优化,语音合成的输出可以像真人一样自然、优雅,举个例子大家体验一下:

不一会儿,我就在跑马场买了1头牛,它的编号是556。

02

PP-ASR

基于上万小时数据的流式语音识别系统

如果说语音合成是机器的“嘴巴”,那语音识别就是机器的“耳朵”,拥有一个识别准确的“耳朵”,才能让机器变得更加聪明。端到端非流式语音识别模型的优势在于识别效果更好,但是劣势是系统延迟大,无法满足实时交互场景的需求。针对这个问题, PaddleSpeech 1.0 版本给大家带来了PP-ASR:基于 WenetSpeech 上万小时数据的流式语音识别系统。

PP-ASR 流式语音识别在保障识别效果的前提下,响应时延显著降低,可以实时得到识别结果,提升用户的使用体验。

测试数据集:Conformer 模型,测试数据集为 AIShell-1 ,流式识别分块长度为 640ms , GPU: Tesla V100-SXM2-32GB,CPU:80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz  

个性化识别方案

基于 WFST 的个性化识别方案,支持特定场景的语音识别任务。例如交通报销场景,针对通用语音识别对 POI 、日期、时间等实体识别效果差,通过基于 WFST 的个性化识别可以提升识别的准确率。在打车报销内部测试集上,通用识别 CER 为5.4%,优化后 CER 为1.32%,绝对提升4.08%。

演示效果见文末示例

03

PP-VPR

全链路声纹识别与音频检索系统

声纹特征作为生物特征,具有防伪性好,不易篡改和窃取等优点,配合语音识别与动态密码技术,非常适合于远程身份认证场景。在声纹识别技术的基础上,配合音频检索技术(如演讲、音乐、说话人等检索),可在海量音频数据中快速查询并找出相似声音(或相同说话人)片段。

其中声纹识别作为一个典型的模式识别问题,其基本的系统架构如下:

PaddleSpeech 这次开源的 PP-VPR 声纹识别与音频检索系统,集成了业界领先的声纹识别模型,使用 ECAPA-TDNN 模型提取声纹特征,识别等错误率( EER , Equal error rate )低至0.83%,并且通过串联 MySQL 和 Milvus ,可以搭建完整的音频检索系统,实现毫秒级声音检索。

04

一键部署五项核心语音服务

语音识别、语音合成、声纹识别、声音分类和标点恢复

在产业应用中,将训练好的模型以服务的形式提供给他人使用可以更方便。考虑到搭建一套完整的网络服务应用是一件繁琐的工作, PaddleSpeech 为大家提供了一键式部署服务,命令行一行代码即可同时启动语音识别,语音合成,声纹识别,声音分类和标点恢复五大服务。

Demo使用及展示

进入 demo/speech_server 目录下,一键启动语音识别、语音合成、声纹识别、声音分类和标点恢复服务。

此时服务已经挂载到了配置的8090端口了,我们可以通过命令行对服务进行调用。

客户端调用,以语音识别为例:

识别结果:

语音合成、声纹识别、声音分类和标点恢复的服务使用类似,可以参考对应的文档。

这么好的项目,欢迎大家star鼓励

并前来体验,送上链接:

https://github.com/PaddlePaddle/PaddleSpeech

 欢迎更多热爱语音技术的开发者们,一起加入 PaddleSpeech 的社区交流。

直播课预告

5.25-5.27日每晚20:30,百度资深算法工程师将带来直播课程,详解 PP-TTS 、 PP-ASR 、 PP-VPR 的设计思路和项目实战,欢迎大家扫码进群,获取课程链接!

//  扫码报名  //

加入技术交流群

入群福利

  • 获取 PaddleSpeech 团队整理的接近20G重磅学习大礼包

  • 获取5月25-27日直播课程链接

更多开发者应用案例

PaddleSpeech 作为飞桨智能语音模型库,可以与其它的一些基于飞桨的深度学习套件一起,搭建有趣的应用。

  • 智能语音工单报销

    (基于 PaddleSpeech 和 PaddleNLP )

  • 虚拟数字人

     (基于 PaddleSpeech 和 PaddleGAN )

B站视频地址:https://b23.tv/qCCZmT9

了解更多 PaddleSpeech 信息,可以参看我们在 NAACL 2022 发表的论文:

PaddleSpeech: An Easy-to-Use All-in-One SpeechToolkit.

  论文链接  

https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/paddlespeech.pdf

从草根到百万年薪程序员的十年风雨之路,附答案解析(代码片段)

造成雪崩的真实场景1.4.1服务提供者不可用硬件故障:如网络故障、硬盘损坏等。程序的bug:如算法需要占用大量CPU的计算时间导致CPU使用率过高。缓存击穿:比如应用刚重启,短时间内缓存是失效的,导致大量请求直接访问... 查看详情

从草根到百万年薪程序员的十年风雨之路,热度飙升!

一面(个人感觉回答得还不错)1.自我介绍2.说项目,项目问的非常深(本人提到之前做过的一篇关于FULLGC的问题定位和优化的项目以及一个多并发的项目)2.1对于自己产于过项目的系统定位是否清楚?2.2... 查看详情

草根程序员8年百万年薪之路

2012年,从一个很普通但很美丽的二本院校毕业(湖北师范大学),走上了一条草根程序员之路。近8年的职业生涯,今年刚好30岁,年薪现金部分已过百万。。三句话,三个维度来梳理下我的历程:一、公司历程:  1.杭州一家... 查看详情

百万年薪python之路--js基础介绍及数据类型

JS代码的引入方式1:<script>alert('兽人永不为奴!')</script>方式2:外部文件引入src属性值为js文件路径<scriptsrc="test.js"></script>变量声明变量名是区分大小写的。推荐使用驼峰式命名规则。首字母大写保留... 查看详情

从草根到百万年薪程序员的十年风雨之路,实战解析

前言当你准备跳槽面试的时候,明明只是一份15K的工作,却问你会不会多线程,懂不懂高并发,火箭造得让你猝及不防,结果就是两个字——凉凉!而在如今的市场,什么多线程、高并发、分布式、负... 查看详情

不堪忍受医美行业潜规则,百万年薪院长想辞职

...SNO1P002580S6.html (原标题:不堪忍受医美行业潜规则,百万年薪院长想辞职)周华在沿海某城市当民营医美医院院长,年收入过百万。十五年前,他还是一家公立医院的外科医生,一个月的薪水不过两三千元。如今,拿着高薪... 查看详情

放弃百万年薪,独自创业,我做错了吗?

作者|NathanMarz译者|弯月出品|CSDN(ID:CSDNnews)大学时期,我深受PaulGraham的文章《如何创造财富》以及《如何从事自己喜欢的职业》的启发。我下定决心,大学毕业后积极地创业。我不喜欢大公司的官僚主义... 查看详情

又一百万年薪毕业生火了,他为什么选择了这里?

点击机器学习算法与Python学习,选择加星标精彩内容不迷路(本文首发钛媒体App,作者|科技指北)▎只有选择到一个合适的行业、合适的团队、合适的公司,才能快速成长,也才能有更大的薪酬增幅... 查看详情

学历不够技术来凑,大专生逆袭进阿里拿百万年薪

2020年YQ爆发,股市动荡各国家间关系不稳定,国内市场经济低迷,再这样的大环境下,各大公司采取了优化政策,以求自保。本人履历高中没考上,上了大专,在广州工作两年,16年来到杭州,已从事开发6年之久了,去过小公司... 查看详情

学历不够技术来凑,大专生逆袭进阿里拿百万年薪

2020年YQ爆发,股市动荡各国家间关系不稳定,国内市场经济低迷,再这样的大环境下,各大公司采取了优化政策,以求自保。本人履历高中没考上,上了中专,在广州工作两年,16年来到杭州,已从事开发6年之久了,去过小公司... 查看详情

挑战阿里社招百万年薪,吃透这37个经典面试题,offer能拿到手软

 最强面试题推荐:2020Java面试题及答案,命中率高达90% 1.bio与nio的区别2.select与poll的区别3.zookeeper的?作原理4.cap理论5.?段式满?cap理论的哪两个理论6.线程池的参数配置,为什么java官?提供???法给线程池7.分布式框架dubbo的好... 查看详情

渣本双非进大厂,3轮技术面+1轮hr面,拿下字百万年薪offer

...槽,找工作的朋友一点帮助,这里也是成功拿下百万年薪&#x 查看详情

腾讯下场造芯!官网百万年薪招揽人才,瞄准ai芯片

鱼羊萧箫发自凹非寺量子位报道|公众号QbitAI中国买光刻机这件事,刚刚又被横空插了一脚。据《华尔街日报》最新报道,中国希望从荷兰公司ASML处购买EUV光刻机设备,但却再次遭到了美国的阻拦。对中国芯片卡脖子... 查看详情

程序员如何年薪百万

讲一讲从5k到年薪50w最快的方式,我的这种方式,经过了自己的验证,我相信绝大多数人都可以做到。这是我的自我介绍:我的自我介绍这是我准备的,让你达到年薪50的所需要的薪资提升攻略:我是如何... 查看详情

元宇宙赛道以百万年薪“抢人”,未来五大类人才最紧俏

...如云计算、AI、游戏、金融等。”游戏、社交赛道率先开百万年薪抢人近日,多则百万年薪的招聘广告进入《证券日报》记者视野。记者在一些招聘软件上发现,多家公司发布元宇宙相关人才招聘,薪资从月薪两万元... 查看详情

元宇宙赛道以百万年薪“抢人”未来五大类人才最紧俏

...如云计算、AI、游戏、金融等。”游戏、社交赛道率先开百万年薪抢人近日,多则百万年薪的招聘广告进入《证券日报》记者视野。记者在一些招聘软件上发现,多家公司发布元宇宙相关人才招聘,薪资从月薪两万元... 查看详情

极客日报:iphone13或有8款配色;vivo百万年薪招工程师;特斯拉新增行车记录视频紧急情况自动保存功能

...a;已下架视频超8000个vivo自研芯片“悦影”有望到来,百万年薪招聘工程师三星:正在开发DDR5内存模块,容量达DDR4两倍特斯拉新增行车记录视频紧 查看详情

华为员工真实工资揭秘:用10年青春换百万年薪,你愿意吗?

华为是世界500强企业,也是最受中国大学生欢迎或青睐雇主榜单上的常客。加上近些年持续不断的增长,华为员工的腰包确实要比以往丰满了不少,尤其是华为手机的爆发。去年,华为消费者业务表现突出,一年开展两次奖金评... 查看详情