说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210689499.6 (22)申请日 2022.06.16 (71)申请人 平安银行股份有限公司 地址 518000 广东省深圳市罗湖区深南 东 路5047号 (72)发明人 于欣璐 李骁 赖众程 常鹏  高洪喜 胡云飞 张莉 冯晋飞  苏杰 邓兆卉 王小红 黎利  陈杭  (74)专利代理 机构 深圳紫藤知识产权代理有限 公司 44570 专利代理师 陈丹 (51)Int.Cl. H04L 9/32(2006.01) G10L 17/14(2013.01)G10L 17/18(2013.01) G10L 19/02(2013.01) G10L 25/24(2013.01) G10L 25/30(2013.01) G10L 25/54(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种声音识别方法、 装置、 终端设备及存储 介质 (57)摘要 本申请实施例公开了一种声音识别方法、 装 置、 终端设备及存储介质, 其中, 该声音识别方法 包括获取客户在远程视频中输入的待识别音 频, 生成待识别音频的频谱图, 对 频谱图进行切分得 到若干段频谱图分段及其对应的音频时间, 将每 一段频谱图分段输入神经网络模型以得到相应 的声纹特征向量, 再将声纹特征向量输入声音转 换识别模型中检测在对应的音频时间内发生说 话人转换的概率, 对概率进行选取得到目标概率 及其对应的目标音频时间, 基于目标音频时间和 目标概率计算得到预测区间, 再基于预测区间以 及客户购买的目标金融产品对客户侧进行告警。 通过上述方法, 至少实现对客户针对购买的金融 产品进行远程视频认证过程中的自动质检, 提高 质检的效率。 权利要求书2页 说明书10页 附图3页 CN 115065482 A 2022.09.16 CN 115065482 A 1.一种声 音识别方法, 其特 征在于, 所述方法包括: 在针对目标金融产品与客户进行远程视频的过程中, 获取客户侧采集到的音频作为待 识别音频; 生成所述待识别音频的频谱图, 对所述频谱图按照预设时间间隔进行切分, 得到若干 段频谱图分段以及每一段 所述频谱图分段对应的音频 段在所述待识别音频中的音频时间; 将每一段所述频谱图分段输入预先训练的神经网络模型, 获得每一段所述频谱图分段 的声纹特 征向量; 将每一所述声纹特征向量输入预设的声音转换识别模型, 检测在所述声纹特征向量对 应的所述音频时间内发生说话人转换的概 率; 选取大于预设概率阈值的所述概率为目标概率, 确定与 所述目标概率对应的音频时间 为目标音频时间, 通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少 一个发生说话人转换的预测区间; 基于所述预测区间以及所述目标 金融产品对客户侧进行告警。 2.根据权利要求1所述的声音识别方法, 其特征在于, 所述选取大于预设概率阈值的所 述概率为 目标概率, 确定与所述 目标概率对应的音频时间为 目标音频时间, 通过预设算法 计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区 间, 包括: 选取数值大于预设概率阈值的所述概率作为目标概率, 确定与 所述目标概率对应的音 频时间为目标音频时间; 将在时间维度上 连续的所述目标音频时间进行合并, 得到合并后目标音频时间; 基于所述目标概率、 所述合并后目标音频时间及未合并的所述音频时间, 通过非极大 值抑制算法计算得到 至少一个发生说话人转换的预测区间。 3.根据权利要求1所述的声音识别方法, 其特征在于, 所述基于所述预测区间以及所述 目标金融产品对客户侧进行告警, 包括: 将每一所述预测区间内的所有的所述目标概 率进行相加, 得到区间概 率; 选取数值最大的所述区间概 率对应的所述预测区间作为目标 预测区间; 基于所述目标 预测区间内的目标音频时间以及所述目标 金融产品对客户侧进行告警。 4.根据权利要求1所述的声音识别方法, 其特征在于, 所述将每一所述声纹特征向量输 入预设的声音转换识别模型, 检测在所述声纹特征向量对应的所述音频时间内发生说话人 转换的概 率, 包括: 采用多次重新采样的方法采集多个音频样本, 对所述音频样本按照性别进行样本划 分; 在声音转换识别模型中, 采用指数函数作为模型的损失函数; 基于所述损失函数, 将相同性别的音频样本 输入所述声 音转换识别模型中进行训练。 5.根据权利要求4所述的声音识别方法, 其特征在于, 所述基于所述损 失函数, 将相同 性别的音频样本 输入所述声 音转换识别模型中进行训练, 包括: 在模型中添加背景噪声数据; 基于所述损失函数和所述背景 噪声数据, 将相同性别的音频样本输入所述声音转换识 别模型中进行训练。权 利 要 求 书 1/2 页 2 CN 115065482 A 26.根据权利要求1所述的声音识别方法, 其特征在于, 所述生成所述待识别音频的频谱 图, 对所述频谱图按照预设时间间隔进行切分, 得到若干段频谱图分段以及每一段所述频 谱图分段对应的音频 段在所述待识别音频中的音频时间, 包括: 对所述待识别音频做静音滤除处 理, 得到目标待识别音频; 通过VAD算法对所述目标待识别音频进行计算; 基于计算结果, 生成与所述目标待识别音频对应的频谱图。 7.根据权利要求1所述的声音识别方法, 其特征在于, 在所述将每一段所述频谱图分段 输入预先训练的神经网络模型, 获得每一段所述频谱图分段的声纹特征向量之前, 所述方 法还包括: 确定预先训练的神经网络模型的po oling层; 在所述po oling层的末端添加多个全联接层。 8.一种声 音识别装置, 其特 征在于, 所述装置包括: 音频获取单元, 用于在针对目标金融产品与客户进行远程视频的过程中, 获取客户 侧 采集到的音频作为待识别音频; 音频处理单元, 用于生成所述待识别音频的频谱图, 对所述频谱图按照预设时间间隔 进行切分, 得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别 音频中的音频时间; 特征获取单元, 用于将每一段所述频谱图分段输入预先训练的神经网络模型, 获得每 一段所述频谱图分段的声纹特 征向量; 检测单元, 用于将每一所述声纹特征向量输入预设的声音转换识别模型, 检测在所述 声纹特征向量对应的所述音频时间内发生说话人转换的概 率; 计算单元, 用于选取大于预设概率阈值的所述概率为目标概率, 确定与所述目标概率 对应的音频时间为目标音频时间, 通过预设算法计算并获取针对所述目标概率和所述目标 音频时间的至少一个发生说话人转换的预测区间; 告警单元, 用于基于所述预测区间以及所述目标 金融产品对客户侧进行告警。 9.一种终端设备, 其特征在于, 包括存储器和处理器, 所述存储器用于存储指令和数 据, 所述处 理器用于执 行权利要求1 ‑7任一项所述的声 音识别方法。 10.一种存储介质, 其特征在于, 所述存储介质中存储有多条指令, 所述指令适于由处 理器加载以执 行权利要求1 ‑7任一项所述的声 音识别方法。权 利 要 求 书 2/2 页 3 CN 115065482 A 3

.PDF文档 专利 一种声音识别方法、装置、终端设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种声音识别方法、装置、终端设备及存储介质 第 1 页 专利 一种声音识别方法、装置、终端设备及存储介质 第 2 页 专利 一种声音识别方法、装置、终端设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:15:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。