语音识别工具kaldi下载与安装(代码片段)

AI菌 AI菌     2023-01-17     220

关键词:

1、下载

  • Kaldi 是用C ++编写的开源语音识别工具包,在Apache License v2.0下免费提供。Kaldi旨在提供灵活且可扩展的组件,包括多种语音信号处理,语音识别,声纹识别和深度神经网络。
  • git 下载地址:https://github.com/kaldi-asr/kaldi

2、安装

  • 进入tools目录,按 INSTALL 文件内容执行相应步骤。
$ cd tools/
$ extras/check_dependencies.sh
$ CXX=g++-4.8 extras/check_dependencies.sh
$ make -j8
  • 进入src目录,按 INSTALL 文件内容执行相应步骤。
$ cd ../src/
$ ./configure
$ make depend -j8
$ make -j8

3、验证kaldi是否安装成功

  • 可以选择运行 egs/ 目录下的许多测试用例脚本,本文以 egs/yesno/ 为例进行验证:
cd ../egs/yesno/
cd s5/
bash ./run.sh
  • 出现如下结果,表示验证成功

4、问题与解决

(1)如果出现以下报错,则需要升级gcc:

***[root@localhost src]# ./configure --shared
Configuring KALDI to use MKL.
Checking compiler c++ ...
***configure failed: c++ (g++-4.8.5) is not supported.
You need GNU g++ >= 5.0, Apple clang >= 6.0 or LLVM clang >= 3.5. ***

升级gcc方法:

$ yum install -y centos-release-scl
$ yum install -y devtoolset-7-gcc devtoolset-7-gcc-c++
$ scl enable devtoolset-7 bash
$ gcc --version

gcc升级参考:https://blog.csdn.net/qq_50607888/article/details/123908033

(2)如果出现以下问题,重新回到tools:

Configuring KALDI to use MKL.
Checking compiler c++ ...
Checking OpenFst library in  ...
***configure failed: Could not find file /include/fst/fst.h:
  you may not have installed OpenFst. See ../tools/INSTALL ***

重新进行make,可能会出现如下错误:

只需在Makefile中找到wget对应的位置加上:–no-check-certificate,如下所示:

修改Makefile后,重新make,编译成功:

语音识别工具kaldi下载与安装(代码片段)

1、下载Kaldi是用C++编写的开源语音识别工具包,在ApacheLicensev2.0下免费提供。Kaldi旨在提供灵活且可扩展的组件,包括多种语音信号处理,语音识别,声纹识别和深度神经网络。git下载地址:https://github.co... 查看详情

语音识别工具asv-subtools介绍与安装(代码片段)

...地址:https://github.com/Snowdar/asv-subtools2、安装安装Kaldi语音识别工具,具体参考:【语音识别工具】kaldi下载与安装新建工程文件mkdir-pkaldi/egs/xmuspeech/sre克隆代码到指定文件cdkaldi/egs/xmuspeech/sregitclonehttps://github.com/Snowdar/a... 查看详情

语音识别工具asv-subtools介绍与安装(代码片段)

1、下载ASV-Subtools是基于Pytorch和Kaldi开发的,主要用于说话人识别、语言识别等任务。ASV-Subtools包含三个主要分支:基本Shell脚本:数据处理、后端评分(大多数基于Kaldi)Kaldi:基本模型的训练(x-vector、TDNN、F-TDNN和多任务学习x-... 查看详情

语音识别工具asv-subtools介绍与安装(代码片段)

1、下载ASV-Subtools是基于Pytorch和Kaldi开发的,主要用于说话人识别、语言识别等任务。ASV-Subtools包含三个主要分支:基本Shell脚本:数据处理、后端评分(大多数基于Kaldi)Kaldi:基本模型的训练(x-vector、TDNN、F-TDNN和多任务学习x-... 查看详情

kaldi语音识别基础教程(代码片段)

Kaldi介绍Kaldi是由C++编写的语音识别工具,其目的在于为语音识别研究者提供一个研究和使用的平台。Kaldi环境搭建本文主要通过使用Docker和Nvidia-docker构建Ubuntu环境对Kaldi进行搭建。Docker针对的是无GPU的环境,Nvidia-docker针对的是... 查看详情

语音识别:安装编译kaldi详细过程及遇到的一些问题汇总(代码片段)

语音识别-Kaldi的安装编译实录(Ubuntu环境)本篇博客用于记录一次用开源语音识别(ASR)工具Kaldi来实现中文语音识别功能的经历,记录一路遇到的一些问题。希望本篇文章可以给广大有需要的人提供一些帮助... 查看详情

kaldi语音识别工具编译问题记录(踩坑记录)(代码片段)

...最近由于项目需要要研究下ASR语言识别,用到了Kaldi语音识别工具,Kaldi是一个语音识别的工具箱,由C++语言开发,外围用shell脚本或其他脚本调用。这里主要记录下一在编译 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:下载数据(代码片段)

输入:语料库位置($data)数据下载路径($data_url)输出:在$data文件夹下新增解压后的语料库(corpus和transcript文件夹,corpus含音频文件和说话人信息等)可选参数:--remove-archive决定是否要在解压后删除data压缩包(默认关闭)loca... 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:run.sh(代码片段)

../cmd.sh##You\'llwanttochangecmd.shtosomethingthatwillworkonyoursystem.../path.sh#定义语料库位置和下载路径data=/DATA/disk1/ASRdata_url=www.openslr.org/resources/62#下载数据##输入:语料库位置($data)数据下载路径($data_url)##输出:在$da 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:词典准备(代码片段)

输入:text(所有录音的分词文本信息-如果是自己的数据没有人工分词可能要提前jieba等工具分词一下)输出:data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件)local/prepare_di... 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:环境配置(代码片段)

cmd.sh 硬件配置(单机/集群配置,单机修改成run.pl)path.sh 环境变量配置(导入环境变量)data语料库位置data_url下载语料库的url(中国镜像已经关闭)../cmd.sh##You'llwanttochangecmd.shtosomethingthatwillworkonyour 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:语言模型准备(代码片段)

输入:data/local/dict输出:data/lang(PhoneSets),(Lcompilation)...可选参数:--num-sil-states<numberofstates>(静音音素的状态数,预设是5)--num-nonsil-states<numberofstates>(非静音音素的状态数,预设是3)--position-dependent-phone 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:提取特征(代码片段)

输入:wav.scp输出:[1]:data/train,test,dev/feats,cmvn.scp[2]:mfcc/raw_mfcc_train,test,dev.1,2,..10.ark,scp[3]:mfcc/cmvn_train,test,dev.ark,scp可选参数:--mfcc-config<mfcc-config-file>default= 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:构建解码图(代码片段)

输入:final.mdl&tree&L_disambig.fst&G.fst输出:HCLG.fst(在exp/xxxx/graph下)##构建解码图###mkgraph.sh主要生成了HCLG.fst,后续识别主要利用了三个文件,分别是final.mdl、HCLG.fst、words.txt(从lang文件夹cp过来)。utils/mkgraph.shdata/lang_t 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:单音素解码(代码片段)

输入:feats&final.mdl&HCLG.fst输出:lat.JOB.gz##在dev数据集上执行steps/decode.sh--cmd"$decode_cmd"--configconf/decode.config--nj10\\exp/mono/graphdata/devexp/mono/decode_dev##在test数据集上执行steps/decode.sh--cm 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:数据准备(代码片段)

输入:解压后的语料库路径(data/aidatatang_200zh)输出:text,wav.scp,utt2spk,spk2utt#DataPreparation:generatetext,wav.scp,utt2spk,spk2uttlocal/data_prep.sh$data/aidatatang_200zh/corpus$data/aidatatang_200zh/transcript| 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:三音速详解(代码片段)

#traintri1[firsttriphonepass]steps/train_deltas.sh--cmd"$train_cmd"\\250020000data/traindata/langexp/mono_aliexp/tri1||exit1;#steps/train_deltas.sh<num-leaves><tot-gauss><data-dir>&l 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:语言模型训练(代码片段)

输入:data/local/train/textdata/local/dict/lexicon.txt输出:data/local/lm(含text.no_oov,word.counts,unigram.counts,word_map,3gram-mincount/lm_unpruned.gz)local/train_lms.sh||exit1;流程:text.no_oov把data/local/t 查看详情