正文

语音识别工具kaldi下载与安装(代码片段)

AI菌  AI菌  2023-01-17  220

关键词：

1、下载

Kaldi 是用C ++编写的开源语音识别工具包，在Apache License v2.0下免费提供。Kaldi旨在提供灵活且可扩展的组件，包括多种语音信号处理，语音识别，声纹识别和深度神经网络。
git 下载地址：https://github.com/kaldi-asr/kaldi

2、安装

进入tools目录，按 INSTALL 文件内容执行相应步骤。

$ cd tools/
$ extras/check_dependencies.sh
$ CXX=g++-4.8 extras/check_dependencies.sh
$ make -j8

进入src目录，按 INSTALL 文件内容执行相应步骤。

$ cd ../src/
$ ./configure
$ make depend -j8
$ make -j8

3、验证kaldi是否安装成功

可以选择运行 egs/ 目录下的许多测试用例脚本，本文以 egs/yesno/ 为例进行验证：

cd ../egs/yesno/
cd s5/
bash ./run.sh

出现如下结果，表示验证成功

4、问题与解决

（1）如果出现以下报错，则需要升级gcc：

***[root@localhost src]# ./configure --shared
Configuring KALDI to use MKL.
Checking compiler c++ ...
***configure failed: c++ (g++-4.8.5) is not supported.
You need GNU g++ >= 5.0, Apple clang >= 6.0 or LLVM clang >= 3.5. ***

升级gcc方法：

$ yum install -y centos-release-scl
$ yum install -y devtoolset-7-gcc devtoolset-7-gcc-c++
$ scl enable devtoolset-7 bash
$ gcc --version

gcc升级参考：https://blog.csdn.net/qq_50607888/article/details/123908033

（2）如果出现以下问题，重新回到tools：

Configuring KALDI to use MKL.
Checking compiler c++ ...
Checking OpenFst library in  ...
***configure failed: Could not find file /include/fst/fst.h:
  you may not have installed OpenFst. See ../tools/INSTALL ***

重新进行make，可能会出现如下错误：

只需在Makefile中找到wget对应的位置加上：–no-check-certificate，如下所示：

修改Makefile后，重新make，编译成功：

语音识别工具kaldi下载与安装(代码片段)

1、下载Kaldi是用C++编写的开源语音识别工具包，在ApacheLicensev2.0下免费提供。Kaldi旨在提供灵活且可扩展的组件，包括多种语音信号处理，语音识别，声纹识别和深度神经网络。git下载地址：https://github.co... 查看详情

语音识别工具asv-subtools介绍与安装(代码片段)

...地址：https://github.com/Snowdar/asv-subtools2、安装安装Kaldi语音识别工具，具体参考：【语音识别工具】kaldi下载与安装新建工程文件mkdir-pkaldi/egs/xmuspeech/sre克隆代码到指定文件cdkaldi/egs/xmuspeech/sregitclonehttps://github.com/Snowdar/a... 查看详情

语音识别工具asv-subtools介绍与安装(代码片段)

1、下载ASV-Subtools是基于Pytorch和Kaldi开发的，主要用于说话人识别、语言识别等任务。ASV-Subtools包含三个主要分支:基本Shell脚本:数据处理、后端评分(大多数基于Kaldi)Kaldi：基本模型的训练(x-vector、TDNN、F-TDNN和多任务学习x-... 查看详情

语音识别工具asv-subtools介绍与安装(代码片段)

kaldi语音识别基础教程(代码片段)

Kaldi介绍Kaldi是由C++编写的语音识别工具，其目的在于为语音识别研究者提供一个研究和使用的平台。Kaldi环境搭建本文主要通过使用Docker和Nvidia-docker构建Ubuntu环境对Kaldi进行搭建。Docker针对的是无GPU的环境，Nvidia-docker针对的是... 查看详情

语音识别：安装编译kaldi详细过程及遇到的一些问题汇总(代码片段)

语音识别-Kaldi的安装编译实录（Ubuntu环境）本篇博客用于记录一次用开源语音识别（ASR）工具Kaldi来实现中文语音识别功能的经历，记录一路遇到的一些问题。希望本篇文章可以给广大有需要的人提供一些帮助... 查看详情

kaldi语音识别工具编译问题记录(踩坑记录)(代码片段)

...最近由于项目需要要研究下ASR语言识别，用到了Kaldi语音识别工具，Kaldi是一个语音识别的工具箱，由C++语言开发，外围用shell脚本或其他脚本调用。这里主要记录下一在编译查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:下载数据(代码片段)

输入：语料库位置（$data）数据下载路径（$data_url）输出：在$data文件夹下新增解压后的语料库（corpus和transcript文件夹，corpus含音频文件和说话人信息等)可选参数：--remove-archive决定是否要在解压后删除data压缩包（默认关闭）loca... 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:run.sh(代码片段)

../cmd.sh##You\'llwanttochangecmd.shtosomethingthatwillworkonyoursystem.../path.sh#定义语料库位置和下载路径data=/DATA/disk1/ASRdata_url=www.openslr.org/resources/62#下载数据##输入：语料库位置（$data）数据下载路径（$data_url）##输出：在$da 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:词典准备(代码片段)

输入：text（所有录音的分词文本信息-如果是自己的数据没有人工分词可能要提前jieba等工具分词一下）输出：data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件)local/prepare_di... 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:环境配置(代码片段)

cmd.sh 硬件配置（单机/集群配置，单机修改成run.pl)path.sh 环境变量配置（导入环境变量）data语料库位置data_url下载语料库的url（中国镜像已经关闭）../cmd.sh##You'llwanttochangecmd.shtosomethingthatwillworkonyour 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:语言模型准备(代码片段)

输入：data/local/dict输出：data/lang(PhoneSets),(Lcompilation)...可选参数：--num-sil-states<numberofstates>（静音音素的状态数，预设是5）--num-nonsil-states<numberofstates>（非静音音素的状态数，预设是3）--position-dependent-phone 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:提取特征(代码片段)

输入：wav.scp输出：[1]:data/train,test,dev/feats,cmvn.scp[2]:mfcc/raw_mfcc_train,test,dev.1,2,..10.ark,scp[3]:mfcc/cmvn_train,test,dev.ark,scp可选参数：--mfcc-config<mfcc-config-file>default= 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:构建解码图(代码片段)

输入：final.mdl&tree&L_disambig.fst&G.fst输出：HCLG.fst(在exp/xxxx/graph下)##构建解码图###mkgraph.sh主要生成了HCLG.fst，后续识别主要利用了三个文件，分别是final.mdl、HCLG.fst、words.txt(从lang文件夹cp过来)。utils/mkgraph.shdata/lang_t 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:单音素解码(代码片段)

输入：feats&final.mdl&HCLG.fst输出：lat.JOB.gz##在dev数据集上执行steps/decode.sh--cmd"$decode_cmd"--configconf/decode.config--nj10\\exp/mono/graphdata/devexp/mono/decode_dev##在test数据集上执行steps/decode.sh--cm 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:数据准备(代码片段)

输入：解压后的语料库路径（data/aidatatang_200zh）输出：text,wav.scp,utt2spk,spk2utt#DataPreparation:generatetext,wav.scp,utt2spk,spk2uttlocal/data_prep.sh$data/aidatatang_200zh/corpus$data/aidatatang_200zh/transcript| 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:三音速详解(代码片段)

#traintri1[firsttriphonepass]steps/train_deltas.sh--cmd"$train_cmd"\\250020000data/traindata/langexp/mono_aliexp/tri1||exit1;#steps/train_deltas.sh<num-leaves><tot-gauss><data-dir>&l 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:语言模型训练(代码片段)

输入：data/local/train/textdata/local/dict/lexicon.txt输出：data/local/lm(含text.no_oov,word.counts,unigram.counts,word_map,3gram-mincount/lm_unpruned.gz)local/train_lms.sh||exit1;流程：text.no_oov把data/local/t 查看详情