专利 一种应急广播敏感词识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210619813.3 (22)申请日 2022.06.02 (71)申请人福建新大陆通信科技股份有限公司地址 350000 福建省福州市马尾开发区儒江东路70号（飞毛腿工业园） 6#楼及5# 楼二至四层 (72)发明人王闽　 (74)专利代理机构福州市鼓楼区京华专利事务所(普通合伙) 35212 专利代理师宋连梅 (51)Int.Cl. G10L 15/06(2013.01) G10L 15/08(2006.01) H04H 20/59(2008.01) H04L 9/32(2006.01) (54)发明名称一种应急广播敏感词识别方法 (57)摘要本发明提供了应急广播技术领域的一种应急广播敏感词识别方法，包括如下步骤：步骤 S10、构建一Kaldi语音识别服务框架；步骤S20、获取大量的敏感词以及CMU词典，基于所述敏感词以及CMU词典创建一包含若干语料的语料库；步骤S30、利用所述Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提取，得到若干个特征文件；步骤S40、将各所述特征文件输入 Kaldi语音识别服务框架进行训练，得到一声学模型，并将所述声学模型发送给应急广播设备；步骤S50、应急广播设备基于接收的所述声学模型对麦克风输入的音频进行敏感词识别。本发明的优点在于：极大的提升了应急广播敏感词识别的及时性以及准确性，极大的降低了识别成本。权利要求书2页说明书5页附图1页 CN 115240652 A 2022.10.25 CN 115240652 A 1.一种应急广播敏感词识别方法，其特征在于：包括如下步骤：步骤S10、构建一Kaldi语音识别服务框架；步骤S20、获取大量的敏感词以及CMU词典，基于所述敏感词以及CMU词典创建一包含若干语料的语料库；步骤S30、利用所述Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提取，得到若干个特征文件；步骤S40、将各所述特征文件输入Kaldi语音识别服务框架进行训练，得到一声学模型，并将所述声学模型发送给应急广播设备；步骤S50、应急广播设备基于接收的所述声学模型对麦克风输入的音频进行敏感词识别。 2.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S10具体为：先安装CUB库，在所述CUB库的基础上安装OpenFst工具、 MFCCs提取工具以及语言模型工具，进而构建Kaldi语音识别服务框架。 3.如权利要求2所述的一种应急广播敏感词识别方法，其特征在于：所述语言模型工具为IRSTLM或者Kaldi_lm。 4.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S20具体为：获取大量的敏感词，将各所述敏感词转换为拼音并进行发音，基于所述发音获取各敏感词的敏感音素；通过librispeech下载包含若干个标准语料的C MU词典；通过人工匹配关联发音相近的所述标准语料，进而扩充所述CMU词典得到包含若干语料的语料库。 5.如权利要求4所述的一种应急广播敏感词识别方法，其特征在于：所述标准语料为汉字、拼音、标准发音、标准音素的对应关系。 6.如权利要求2所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S30具体为：利用所述Op enFst工具对语料库中的各语料进行解码，利用所述MFCCs提取工具对各解码后的语料进行多维特征提取，得到若干个特征文件。 7.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S30 中，所述特征文件至少包括语料列表的表单、语料存档的表单、语料的读写声明符、发音词典以及音素表；各所述特征文件通过文件名进行归类，并存储在预设的文件夹中。 8.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S30 中，所述特征文件以二进制形式进行存储。 9.如权利要求2所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S40具体为：将各所述特征文件输入语言模型工具进行训练，得到一声学模型，对所述声学模型进行MD5校验得到第一校验码，对所述声学模型以及第一校验码进行打包压缩得到一声学压缩包，利用加密算法对所述声学压缩包进行加密得到声学加密包，将所述声学加密包发送权　利　要　求　书 1/2 页 2 CN 115240652 A 2给应急广播设备。 10.如权利要求9所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S50具体包括：步骤S51、应急广播设备接收所述声学加密包，利用加密算法解密所述声学加密包得到声学压缩包，解压所述声学压缩包得到声学模型以及第一校验码；步骤S52、应急广播设备对所述声学模型进行MD5校验得到第二校验码，判断所述第二校验码与第一校验码是否相等，若是，则进入步骤S5 3；若否，则进入步骤S40；步骤S53、应急广播设备通过麦克风获取输入的音频，对所述音频进行断句得到子音频，利用所述Kaldi语音识别服务框架对子音频进行解码以及特征提取后输入声学模型，得到敏感词识别结果；步骤S54、对所述敏感词识别结果进行校验，判断是否识别正确，若是，则输出所述敏感词识别结果；若否，则利用对应的所述子音频对声学模型进行再次训练。权　利　要　求　书 2/2 页 3 CN 115240652 A 3

专利 一种应急广播敏感词识别方法

专利一种应急广播敏感词识别方法