专利 一种声音识别方法、装置、终端设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210689499.6 (22)申请日 2022.06.16 (71)申请人平安银行股份有限公司地址 518000 广东省深圳市罗湖区深南东路5047号 (72)发明人于欣璐　李骁　赖众程　常鹏　高洪喜　胡云飞　张莉　冯晋飞　苏杰　邓兆卉　王小红　黎利　陈杭　 (74)专利代理机构深圳紫藤知识产权代理有限公司 44570 专利代理师陈丹 (51)Int.Cl. H04L 9/32(2006.01) G10L 17/14(2013.01)G10L 17/18(2013.01) G10L 19/02(2013.01) G10L 25/24(2013.01) G10L 25/30(2013.01) G10L 25/54(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种声音识别方法、装置、终端设备及存储介质 (57)摘要本申请实施例公开了一种声音识别方法、装置、终端设备及存储介质，其中，该声音识别方法包括获取客户在远程视频中输入的待识别音频，生成待识别音频的频谱图，对频谱图进行切分得到若干段频谱图分段及其对应的音频时间，将每一段频谱图分段输入神经网络模型以得到相应的声纹特征向量，再将声纹特征向量输入声音转换识别模型中检测在对应的音频时间内发生说话人转换的概率，对概率进行选取得到目标概率及其对应的目标音频时间，基于目标音频时间和目标概率计算得到预测区间，再基于预测区间以及客户购买的目标金融产品对客户侧进行告警。通过上述方法，至少实现对客户针对购买的金融产品进行远程视频认证过程中的自动质检，提高质检的效率。权利要求书2页说明书10页附图3页 CN 115065482 A 2022.09.16 CN 115065482 A 1.一种声音识别方法，其特征在于，所述方法包括：在针对目标金融产品与客户进行远程视频的过程中，获取客户侧采集到的音频作为待识别音频；生成所述待识别音频的频谱图，对所述频谱图按照预设时间间隔进行切分，得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间；将每一段所述频谱图分段输入预先训练的神经网络模型，获得每一段所述频谱图分段的声纹特征向量；将每一所述声纹特征向量输入预设的声音转换识别模型，检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率；选取大于预设概率阈值的所述概率为目标概率，确定与所述目标概率对应的音频时间为目标音频时间，通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间；基于所述预测区间以及所述目标金融产品对客户侧进行告警。 2.根据权利要求1所述的声音识别方法，其特征在于，所述选取大于预设概率阈值的所述概率为目标概率，确定与所述目标概率对应的音频时间为目标音频时间，通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间，包括：选取数值大于预设概率阈值的所述概率作为目标概率，确定与所述目标概率对应的音频时间为目标音频时间；将在时间维度上连续的所述目标音频时间进行合并，得到合并后目标音频时间；基于所述目标概率、所述合并后目标音频时间及未合并的所述音频时间，通过非极大值抑制算法计算得到至少一个发生说话人转换的预测区间。 3.根据权利要求1所述的声音识别方法，其特征在于，所述基于所述预测区间以及所述目标金融产品对客户侧进行告警，包括：将每一所述预测区间内的所有的所述目标概率进行相加，得到区间概率；选取数值最大的所述区间概率对应的所述预测区间作为目标预测区间；基于所述目标预测区间内的目标音频时间以及所述目标金融产品对客户侧进行告警。 4.根据权利要求1所述的声音识别方法，其特征在于，所述将每一所述声纹特征向量输入预设的声音转换识别模型，检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率，包括：采用多次重新采样的方法采集多个音频样本，对所述音频样本按照性别进行样本划分；在声音转换识别模型中，采用指数函数作为模型的损失函数；基于所述损失函数，将相同性别的音频样本输入所述声音转换识别模型中进行训练。 5.根据权利要求4所述的声音识别方法，其特征在于，所述基于所述损失函数，将相同性别的音频样本输入所述声音转换识别模型中进行训练，包括：在模型中添加背景噪声数据；基于所述损失函数和所述背景噪声数据，将相同性别的音频样本输入所述声音转换识别模型中进行训练。权　利　要　求　书 1/2 页 2 CN 115065482 A 26.根据权利要求1所述的声音识别方法，其特征在于，所述生成所述待识别音频的频谱图，对所述频谱图按照预设时间间隔进行切分，得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间，包括：对所述待识别音频做静音滤除处理，得到目标待识别音频；通过VAD算法对所述目标待识别音频进行计算；基于计算结果，生成与所述目标待识别音频对应的频谱图。 7.根据权利要求1所述的声音识别方法，其特征在于，在所述将每一段所述频谱图分段输入预先训练的神经网络模型，获得每一段所述频谱图分段的声纹特征向量之前，所述方法还包括：确定预先训练的神经网络模型的po oling层；在所述po oling层的末端添加多个全联接层。 8.一种声音识别装置，其特征在于，所述装置包括：音频获取单元，用于在针对目标金融产品与客户进行远程视频的过程中，获取客户侧采集到的音频作为待识别音频；音频处理单元，用于生成所述待识别音频的频谱图，对所述频谱图按照预设时间间隔进行切分，得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间；特征获取单元，用于将每一段所述频谱图分段输入预先训练的神经网络模型，获得每一段所述频谱图分段的声纹特征向量；检测单元，用于将每一所述声纹特征向量输入预设的声音转换识别模型，检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率；计算单元，用于选取大于预设概率阈值的所述概率为目标概率，确定与所述目标概率对应的音频时间为目标音频时间，通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间；告警单元，用于基于所述预测区间以及所述目标金融产品对客户侧进行告警。 9.一种终端设备，其特征在于，包括存储器和处理器，所述存储器用于存储指令和数据，所述处理器用于执行权利要求1 ‑7任一项所述的声音识别方法。 10.一种存储介质，其特征在于，所述存储介质中存储有多条指令，所述指令适于由处理器加载以执行权利要求1 ‑7任一项所述的声音识别方法。权　利　要　求　书 2/2 页 3 CN 115065482 A 3

专利 一种声音识别方法、装置、终端设备及存储介质

专利一种声音识别方法、装置、终端设备及存储介质