正文

[语音识别]kaldi--aidatatang_200zh脚本解析:数据准备(代码片段)

MachineLP  MachineLP  2022-12-07  319

关键词：

输入：解压后的语料库路径（data/aidatatang_200zh）

输出：text, wav.scp, utt2spk, spk2utt

# Data Preparation: generate text, wav.scp, utt2spk, spk2utt
local/data_prep.sh $data/aidatatang_200zh/corpus $data/aidatatang_200zh/transcript || exit 1;

流程：

1.参数/文件夹路径等效验
2.检验是否一共有237265个文件
# find /DATA/disk1/ASR/aidatatang_200zh/corpus -iname "*.wav" | wc -l
# wav.flist 范例: /DATA/disk1/ASR/aidatatang_200zh/corpus/train/G1428/T0055G1428S0319.wav
# 其中G1428是说话人ID，T0055G1428S0319是录音文件ID

3.在data/local/train,test,dev下生成text,wav.scp,utt2spk,spk2utt等文件。

text：包含了每条语音对应的转录文本，格式为 ＜utterance-id＞＜transcription＞.
# 范例：T0055G1428S0319 没有 网络 可以 听 短信 吗
wav.scp：记录语音位置的索引文件，格式为＜utterance-id＞＜filename＞.
# 范例：T0055G1428S0319 /DATA/disk1/ASR/aidatatang_200zh/corpus/train/G1428/T0055G1428S0319.wav
utt2spk：指明语音与说话人的对应关系&

[语音识别]kaldi--aidatatang_200zh脚本解析:数据准备(代码片段)

输入：解压后的语料库路径（data/aidatatang_200zh）输出：text,wav.scp,utt2spk,spk2utt#DataPreparation:generatetext,wav.scp,utt2spk,spk2uttlocal/data_prep.sh$data/aidatatang_200zh/corpus$data/aidatatang_200zh/transcript| 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:数据集介绍

格式16kHz16bit，wav，单声道录音环境安静的室内，噪音不影响语音识别录音内容30万条口语化句子录音内容30万条口语化句子录音人6,408人男性2,999人，女性3,301人录音人≤20岁1,481人，21~30岁4,412人，31~40岁244人... 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:语言模型准备(代码片段)

输入：data/local/dict输出：data/lang(PhoneSets),(Lcompilation)...可选参数：--num-sil-states<numberofstates>（静音音素的状态数，预设是5）--num-nonsil-states<numberofstates>（非静音音素的状态数，预设是3）--position-dependent-phone 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:环境配置(代码片段)

cmd.sh 硬件配置（单机/集群配置，单机修改成run.pl)path.sh 环境变量配置（导入环境变量）data语料库位置data_url下载语料库的url（中国镜像已经关闭）../cmd.sh##You'llwanttochangecmd.shtosomethingthatwillworkonyour 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:词典准备(代码片段)

输入：text（所有录音的分词文本信息-如果是自己的数据没有人工分词可能要提前jieba等工具分词一下）输出：data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件)local/prepare_di... 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:run.sh(代码片段)

../cmd.sh##You\'llwanttochangecmd.shtosomethingthatwillworkonyoursystem.../path.sh#定义语料库位置和下载路径data=/DATA/disk1/ASRdata_url=www.openslr.org/resources/62#下载数据##输入：语料库位置（$data）数据下载路径（$data_url）##输出：在$da 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:下载数据(代码片段)

...除data压缩包（默认关闭）local/download_and_untar.sh$data$data_urlaidatatang_200zh||e 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:构建解码图(代码片段)

输入：final.mdl&tree&L_disambig.fst&G.fst输出：HCLG.fst(在exp/xxxx/graph下)##构建解码图###mkgraph.sh主要生成了HCLG.fst，后续识别主要利用了三个文件，分别是final.mdl、HCLG.fst、words.txt(从lang文件夹cp过来)。utils/mkgraph.shdata/lang_t 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:单音素解码(代码片段)

输入：feats&final.mdl&HCLG.fst输出：lat.JOB.gz##在dev数据集上执行steps/decode.sh--cmd"$decode_cmd"--configconf/decode.config--nj10\\exp/mono/graphdata/devexp/mono/decode_dev##在test数据集上执行steps/decode.sh--cm 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:三音速详解(代码片段)

#traintri1[firsttriphonepass]steps/train_deltas.sh--cmd"$train_cmd"\\250020000data/traindata/langexp/mono_aliexp/tri1||exit1;#steps/train_deltas.sh<num-leaves><tot-gauss><data-dir>&l 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:语言模型训练(代码片段)

输入：data/local/train/textdata/local/dict/lexicon.txt输出：data/local/lm(含text.no_oov,word.counts,unigram.counts,word_map,3gram-mincount/lm_unpruned.gz)local/train_lms.sh||exit1;流程：text.no_oov把data/local/t 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:检查相关模型(代码片段)

输入：data/local/lm/3gram-mincount/lm_unpruned.gz输出：G.fstlocal/format_data.sh流程：1.解压lm_unpruned.gz并通过arpa2fst转换成G.fst(语言模型概率就成了图权重的一部分)gunzip-c"$arpa_lm"|\\arpa2fst--disambig-symbol=#0\\--read-symbol-tab 查看详情

[语音识别]kaldi--aidatatang_200zh脚本解析:获取对齐文件（对指定的数据进行对齐，作为新模型的输入）(代码片段)

输入：tree&final.mdl&text&L.fst&feats输出：ali.JOB.gz（根据重新构建的图产生）&final.mdl(cpfrom训练过程的最终结果)steps/align_si.sh--cmd"$train_cmd"--nj10\\data/traindata/langexp/monoexp/mono_ali||exit1;流程：1. 查看详情

94tensorflow实现语音识别0,1,2,3,4,5,6,7,8,9

‘‘‘Createdon2017年7月23日@author:weizhen‘‘‘#导入库from__future__importdivision,print_function,absolute_importimporttflearnimportspeech_dataimporttensorflowastf#定义参数#learningrate是在更新权重的时候用，太高可用很快#但是loss大，太低较查看详情

java离线版语音识别-语音转文字(代码片段)

Java离线版语音识别-语音转文字1.项目前言2.Vosk介绍3.项目开发3.1项目准备3.2model准备3.3测试音频准备3.4代码实现4.效果演示4.1界面效果4.2单个文件语音识别4.2.1轻量模型4.2.2通用模型4.2.3两者对比4.3多个语音文件识别4.3.1轻量模型4.3... 查看详情

构建ctc语音识别解码网络

　　本文介绍kaldi-ctc构建CTC[1,2,3,4]语音识别加权有限状态机(WFST)解码网络的方式。　　示例相关资源lifeiteng/codingmath/CTC-decoding-graph　　构建语言模型　　以单句“howareyouare”作为文本语料，训练bi-gram(order=2)语言模型　　生成G.fst... 查看详情

语音识别中的lattice与confusionnetwork

如果大家使用搜狗输入法的语音识别可能会发现在我们说我一句话之后，语音识别会返给你多个结果，这些结果之间只有微小差异（很多时候是发音相同的替代词）。绝大多数时候，输入法给出的结果就是我... 查看详情

如何用python调用百度语音识别

参考技术A#!/usr/bin/envpython#-*-coding:utf-8-*-##########################################################################Copyright(c)2017aibot.me,Inc.AllRightsReserved#########################################################################"""File:util_voice.pyAuthor:darrenwang(d... 查看详情