说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210619813.3 (22)申请日 2022.06.02 (71)申请人 福建新大陆通信科技股份有限公司 地址 350000 福建省福州市马尾开发区儒 江东路70号 (飞毛腿工业园) 6#楼及5# 楼二至四层 (72)发明人 王闽  (74)专利代理 机构 福州市鼓楼区京华专利事务 所(普通合伙) 35212 专利代理师 宋连梅 (51)Int.Cl. G10L 15/06(2013.01) G10L 15/08(2006.01) H04H 20/59(2008.01) H04L 9/32(2006.01) (54)发明名称 一种应急广播敏感词识别方法 (57)摘要 本发明提供了应急广播技术领域的一种应 急广播敏感词识别方法, 包括如下步骤: 步骤 S10、 构建一Kaldi语音识别服务框架; 步骤S20、 获取大量的敏感词以及CMU词典, 基于所述敏感 词以及CMU词典创建一包含若干语料的语料库; 步骤S30、 利用所述Kaldi语音识别服务框架对语 料库中的各语料进行解码以及特征提取, 得到若 干个特征文件; 步骤S40、 将各所述特征文件输入 Kaldi语音识别服务框架进行训练, 得到一声学 模型, 并将所述声学模型发送给应急广播设备; 步骤S50、 应急广播设备基于接收的所述声学模 型对麦克风输入的音 频进行敏感词识别。 本发明 的优点在于: 极大的提升了应急广播敏感词识别 的及时性以及准确性, 极大的降低了识别成本 。 权利要求书2页 说明书5页 附图1页 CN 115240652 A 2022.10.25 CN 115240652 A 1.一种应急广播敏感词识别方法, 其特 征在于: 包括如下步骤: 步骤S10、 构建一Kaldi语音识别服 务框架; 步骤S20、 获取大量的敏感词以及CMU词典, 基于所述敏感词以及CMU词典创建一包含若 干语料的语料库; 步骤S30、 利用所述Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提 取, 得到若干个特 征文件; 步骤S40、 将各所述特征文件输入Kaldi语音识别服务框架进行训练, 得到一声学模型, 并将所述声学模型发送给应急广播设备; 步骤S50、 应急广播设备基于接收的所述声学模型对麦克风输入的音频进行敏感词识 别。 2.如权利要求1所述的一种应急广播敏感词识别方法, 其特征在于: 所述步骤S10具体 为: 先安装CUB库, 在所述CUB库的基础上安装OpenFst工具、 MFCCs提取工具以及语言模型 工具, 进而构建Kaldi语音识别服 务框架。 3.如权利要求2所述的一种应急广播敏感词识别方法, 其特征在于: 所述语言模型工具 为IRSTLM或者Kaldi_lm。 4.如权利要求1所述的一种应急广播敏感词识别方法, 其特征在于: 所述步骤S20具体 为: 获取大量的敏感词, 将各所述敏感词转换为拼音并进行发音, 基于所述发音获取各敏 感词的敏感音素; 通过librispeech下载包含若干个标准语料的C MU词典; 通过人工匹配关联发音相近的所述标准语料, 进而扩充所述CMU词典得到包含若干语 料的语料库。 5.如权利要求4所述的一种应急广播敏感词识别方法, 其特征在于: 所述标准语料为汉 字、 拼音、 标准发音、 标准音素的对应关系。 6.如权利要求2所述的一种应急广播敏感词识别方法, 其特征在于: 所述步骤S30具体 为: 利用所述Op enFst工具对语料库中的各语料进行解码, 利用所述MFCCs提取工具对各解 码后的语料进行多维特 征提取, 得到若干个特 征文件。 7.如权利要求1所述的一种应急广播敏感词识别方法, 其特征在于: 所述步骤S30 中, 所 述特征文件至少包括语料列 表的表单、 语料存档的表单、 语料的读写声明符、 发音词典以及 音素表; 各 所述特征文件通过文件名进行归类, 并存 储在预设的文件夹中。 8.如权利要求1所述的一种应急广播敏感词识别方法, 其特征在于: 所述步骤S30 中, 所 述特征文件以二进制形式进行存 储。 9.如权利要求2所述的一种应急广播敏感词识别方法, 其特征在于: 所述步骤S40具体 为: 将各所述特征文件输入语言模型工具进行训练, 得到一声学模型, 对所述声学模型进 行MD5校验得到第一校验码, 对所述声学模型以及第一校验码进行打包压缩得到一声学压 缩包, 利用加密算法对所述声学压缩包进行加密得到声学加密包, 将所述声学加密包发送权 利 要 求 书 1/2 页 2 CN 115240652 A 2给应急广播设备。 10.如权利要求9所述的一种应急广播敏感词识别方法, 其特征在于: 所述步骤S50具体 包括: 步骤S51、 应急广播设备接收所述声学加密包, 利用加密算法解密所述声学加密包得到 声学压缩 包, 解压所述声学压缩 包得到声学模型以及第一校验码; 步骤S52、 应急广播设备对所述声学模型进行MD5校验得到第二校验码, 判断所述第二 校验码与第一校验码是否相等, 若是, 则进入步骤S5 3; 若否, 则进入步骤S40; 步骤S53、 应急广播设备通过麦克风获取输入的音频, 对所述音频进行断句得到子音 频, 利用所述Kaldi语音识别服务框架对子音 频进行解码以及特征提取后输入声 学模型, 得 到敏感词识别结果; 步骤S54、 对所述敏感词 识别结果进行校验, 判断是否识别正确, 若是, 则输出所述敏感 词识别结果; 若否, 则 利用对应的所述子音频对声学模型进行 再次训练。权 利 要 求 书 2/2 页 3 CN 115240652 A 3

.PDF文档 专利 一种应急广播敏感词识别方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种应急广播敏感词识别方法 第 1 页 专利 一种应急广播敏感词识别方法 第 2 页 专利 一种应急广播敏感词识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:16:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。