正文

gmm-hmm声学模型

author  author  2023-05-03  585

关键词：

参考技术A 语音识别框架中的经典的声学模型是：基于隐马尔可夫（HMM）的声学模型

本文总结GMM-HMM在声学模型的对应关系及作用，不对GMM和HMM做过多介绍。

一个声学模型是一组HMM

HMM参数：初始概率、转移概率、观察概率

基于HMM的声学模型需要人工定义的是：

    1.HMM中状态数

    2.初始概率（实践中一般令其恒等于1）

    3.转移概率（该项对识别结果影响很小，所以设为固定值，不在训练中更新）

    4.每个状态的概率分布函数(一个HMM状态下一个帧的特征的PDF，本节的PDF是GMM)

基于HMM的声学模型主要包含的信息是：状态的定义、各状态的观察概率分布，本文为GMM，因此声学模型也叫GMM-HMM模型。其他的如：使用神经网络对HMM的观察概率分布建模的被称为NN-HMM模型。

HMM状态的物理意义可以认为是：音素的发声状态，习惯上分为“初始态”、“稳定态”、“结束态”，因此可以用三个状态建模一个音素的发音。也可以使用两个状态来表示“起始帧”、“其他帧”。

声学模型可以计算某一帧特征对应某一状态的声学分，也就是该帧对应该状态的对数观察概率，或对数似然值。

一个音素：多个连续的HMM状态，一个HMM模型

一帧特征：一个HMM状态

一个音素：多个帧特征

输入连续的语音帧的声学特征如MFCC，例：o1 o2 o3 ... on.

识别过程：为特征序列匹配状态序列，例：s1 s2 s3 ... sn. 其中不同的s可能为相同的状态。

声学模型作用就是计算声学分

输入：特征序列、特征序列对应的状态序列（每一帧对应一个状态）

输出：HMM的观察概率GMM模型的参数

优化算法：EM算法

GMM参数可使用EM算法迭代，但是在训练过程中也需要特征序列和标注文本（音素、状态）的对应关系，因此，需要对特征序列和标注文本对齐。

对齐：通过特征序列和标注文本获取每个帧对应的状态

对齐的过程需要声学模型，而声学模型的训练也需要对齐结果，因此这也是一个迭代地过程。

Kaldi中第一次训练声学模型均等地把语音帧对应到相应的状态，训练几轮后，使用训练中的声学模型通过维特比算法生成对齐结果，然后不断迭代。

单音子模型：一个音素对应一个HMM模型

多音子模型（常为三音子、双音子）：多个音素对应一个HMM模型

初入语音，如有错误，欢迎指出。

04基于上下文相关的gmm-hmm声学模型1

1.上下文对音素发音的语谱轨迹的影响受到上下文的影响，同一个音素的发音语谱轨迹不同为提高识别准确率，对音素建模时应将这种上下文影响考虑在内 2.基于上下文相关的音素建模注意，非单音素建模中，每个模型依旧... 查看详情

声学模型gmm-hmm

...地口音、采集设备、环境噪声等音素的差异，已训练过的GMM-HMM很可能和新领域的测试数据不匹配，导致识别效果变差，需要做自适应训练。MAP(最大后验概率估计)：算法本质是重新训练一次，并且平衡原有模型参数和自适应数据... 查看详情

[转]kaldiasr:dnn训练

...神经网络的输入与输出。在进行DNN训练之前需要用到之前GMM-HMM训练的模型，以训练好的mono模型为例，对模型进行维特比alignement（对齐），该部分查看详情

传统声学模型之hmm和gmm

声学模型是指给定声学符号(音素)的情况下对音频特征建立的模型。数学表达用(X)表示音频特征向量(观察向量)，用(S)表示音素(隐藏/内部状态)，声学模型表示为(P(X|S))。但我们的机器是个牙牙学语的孩子，并不知道哪个音素具体... 查看详情

语音识别系统语言模型的训练和声学模型的改进

一、训练语言模型词与词之间存在着合乎句法与否的约束，语言模型就是用来表示这些约束的，它可以提供字与字之间的上下文信息和语义信息。N-gram模型，即对训练音频文件所对应的文本文件进行统... 查看详情

lmsvirtual.lab二次开发：声学仿真理论基础准备（python）(代码片段)

1、简介采用LMSVirtual.LabAcoustics声学软件，可以直接打开CATIAV5的设计模型、或者间接导入其它CAD软件的三维模型，实现从声学模型创建、复杂边界条件加载、快速求解计算，直到计算结果评估、响应峰值定位、问题根源探究、以... 查看详情

语音识别中区分性训最大似然估计的区别是啥？

...。训练，即通过大量标注的语音数据训练声学模型，包括GMM-HMM、DNN-HMM和RNN+CTC等；解码，即通过声学模型和语言模型将训练集外的语音数据识别成文字。目前常用的开源工具有HTKSpeechRecognitionToolkit，KaldiASR以及Tensorflow(speech-to-text... 查看详情

《语音信号处理》《第2章语音信号的声学基础及产生模型》

语音学三个分支：1.发音语音学2.声学语音学----进一步出现了声音模拟、语音合成、语音识别3.听觉语音学和心理语言学----研究人耳和大脑本章介绍语音产生的过程及人耳的听觉过程，传统的线性语音产生模型以及目前广泛受到... 查看详情

卷积神经网络（cnn）在语音识别中的应用

...入到声学模型建模中，将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率，引领了DNN-HMM混合系统的风潮。查看详情

pocketsphinx python gstreamer 音频速率

...MU教程中的源代码。我正在尝试上传HUB4字典、语言模型和声学模型。我之前刚上传字典和语言模型时可以正常工作，但是当我尝试使用声学模型时出现此错误：INFO：acm 查看详情

01介绍

统计语音识别的基本等式X------声学特征向量序列，观测值W------单词序列W*------给定观测值下，概率最大的单词序列应用贝叶斯理论等价于进而得出统计语音识别的框架运用声学模型、语言模型、词典得出给定观测值下概率最大... 查看详情

[转]如何用kaldi训练好的模型做特定任务的在线识别

...新任务做在线识别应该怎么做呢？一种情况是，用已有的声学模型和新训练的语言模型。语言模型可以同srilm等工具训练，但是怎样将语言模型与DNN声学模型结合一起来进行识别的。SRILM可以用来训练ARPA格式的LM，假设train.txt是... 查看详情

[转]语音识别基本原理介绍----gmm-hmm中的embeddedtraining（嵌入式训练）

转自：http://blog.csdn.net/wbgxx333/article/details/38986507本文是翻译Speech and Language Processing: An introduction to natural language processing,computational& 查看详情

语音合成tts相关的一些总结

...—前端和后端系统基础主要分为三部分：前端模型、声学模型、声码器其中声学模型可能还包括时长模型，不过得看具体的算法了。除了以前的拼接式方法，现在主流的TTS有两类：基于tacotron这种没有对齐信息基... 查看详情

浅谈语音测试方案（一）

...部分：科研院所主要包括高校和科学院，比如科学院里有声学所、自动化所，高校里面研究比较多的清华、北大、西工大、科大、上海交大等，这些都是在语音圈里占有较高位置的老牌队伍。语音技术公司包括我们比较熟悉的科... 查看详情

语音识别中的asr技术通识2019-12-06

...过程是将得到的向量变成文字的过程，其中用到两个模型声学模型和语言模型。声学模型是将特征向量转化成单个字母（中文的拼音声母和韵母），成为音素。语言模型是将音素拼接起来成为单词或者汉字。两种模型都需要大量... 查看详情

愚公系列华为云系列之modelarts搭建中文语音识别系统(代码片段)

...般原理3.信号处理与特征提取方法3.1MFCC4.基于深度学习的声学模型DNN-HMM二、DFCNN全序列卷积神经网络介绍三、Transformer原理四、使用ModelArts快速上手训练DFCNN+Transformer模型完成中文语音识别系统的搭建1.ModelArts，致力打造行... 查看详情

初探语音识别asr算法

...门（三）：语音识别ASR算法初探|编码与解码|声学模型与语音模型|贝叶斯公式|音素》，作者：黄辣鸡。语音识别技术的发展已有数十年发展历史，大体来看可以分成传统的识别的方法和基于深度学习网络... 查看详情