说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211359138.1 (22)申请日 2022.11.02 (71)申请人 中汽数据有限公司 地址 100176 北京市大兴区北京经济技 术 开发区博兴六路三 号院4幢3层 (72)发明人 王增喜 于波 王赟芝 方琳 潘霞 张苏林 宗岩 焦莉莉 韩瑞龙 秦川琪 张莹 (51)Int.Cl. G10L 15/08(2006.01) G06V 40/20(2022.01) G06V 10/80(2022.01) (54)发明名称 基于车载多模交互的语音识别方法及 装置、 介质和设备 (57)摘要 本发明涉及数据处理领域, 公开了一种基于 车载多模交互的语音识别方法及装置、 介质、 设 备, 包括: 获取车内语音数据, 从车内语音数据中 提取出语音特征向量; 提取出面部特征向量、 唇 部特征向量、 手势特征向量; 获取车辆状态数据, 从车辆状态数据中提取出车辆状态特征向量; 确 定面部特征向量、 唇部特征向量、 手势特征向量 和车辆状态特征向量各自对应的调和系数; 将面 部特征向量、 唇部特征向量、 手势特征向量和车 辆状态特征向量进行多模融合, 得到第一融合特 征向量; 将第一融合特征向量和语音特征向量进 行融合处理, 得到第二融合特征向量; 将第二融 合特征向量输入至语音识别模型中, 得到语音识 别结果。 本发 明实施例可以提高车载语音识别准 确率。 权利要求书4页 说明书12页 附图5页 CN 115410561 A 2022.11.29 CN 115410561 A 1.一种基于车 载多模交 互的语音识别方法, 其特 征在于, 包括: 获取车内语音数据, 并从所述车内语音数据中提取出语音特征向量; 获取车内人员的 面部数据、 唇部数据和手势数据, 从所述面部数据中提取出面部特征向量, 从所述唇部数据 中提取出唇部特征向量, 从所述手势数据中提取出手势特征向量; 获取车辆状态数据, 并从 所述车辆状态数据中提取 出车辆状态特 征向量; 确定所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所述车辆状态特征 向量各自对应的调和系数; 根据各个调和系数, 将所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所 述车辆状态特 征向量进行多模融合, 得到第一融合特 征向量; 将所述第一融合特征向量和所述语音特征向量进行融合处理, 得到第二融合特征向 量; 将所述第二融合特征向量输入至预先训练 的语音识别模型中, 得到对应的语音识别结 果。 2.根据权利要求1所述的方法, 其特征在于, 采用预设方程组计算各个调和系数, 所述 预设方程组包括如下 方程式: 式中, 为所述唇部特征向量中的第i个元素, 为所述面部特征向量中的第i个元 素, 为所述手势特征向量中的第i个元素, 为所述车辆状态特征向量中的第i个元素; a 为所述唇部特征向量中的元素个数, b为所述面部特征向量中的元素个数, c为所述手势特 征向量中的元素个数, d为所述车辆状态特征向量中的元素个数; 为所述唇部特征向量权 利 要 求 书 1/4 页 2 CN 115410561 A 2的调和系数, 为所述面部特征向量的调和系数, 为所述手势特征向量的调和系数, 为所述车辆状态特 征向量的调和系数。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述面部特征向量、 所述唇部特征 向量、 所述手势特征向量和所述车辆状态特征向量进 行多模融合, 得到第一融合特征向量, 包括: 将所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所述车辆状态特征向 量分别与各自对应的调和系 数相乘, 并将相乘后得到的各个向量拼接为一个向量, 得到所 述第一融合特 征向量。 4.根据权利要求1所述的方法, 其特 征在于, 还 包括: 在车辆每次执行语音指令后, 获取车辆的状态变化数据, 并根据所述状态变化数据确 定本次语音识别结果是否正确; 每隔预设时间段后, 计算该预设时间段内语音识别对应的句识别成功率、 唤醒率、 交互 识别率、 唤醒平均响应时间和功能识别率; 根据所述句识别成功率、 所述唤醒率、 所述交互识别率、 所述唤醒平均响应时间和所述 功能识别率, 计算对应的识别性能指标。 5.根据权利要求 4所述的方法, 其特 征在于, 采用第一计算式计算所述句识别成功率, 所述第一计算式为: a=对连续语音的识别成 功次数/识别总次数, a为所述句识别成功率; 和/或, 所述唤醒率包括成功唤醒率和误唤醒率, 采用第二计算式计算所述成功唤醒率, 所述 第二计算式为: b1=成功唤醒次数/识别总次数, b1为所述成功唤醒率; 采用第三计算式计算 所述误唤醒率, 所述第三计算式为: b2=误唤醒次数/识别总次数, b2为所述误唤醒率; 和/ 或, 所述交互识别率包括交互成功率和误操作率, 采用第 四计算式计算所述交互成功率, 所述第四计算式为: c1=成功交互 次数/识别总次数, c1为所述交互成功 率; 采用第五计算式 计算所述误操作率, 所述第五计算式为: c2=交互失败次数/识别总次数, c2为所述误操作 率; 采用第六计算式计算所述唤醒平均响应时间, 所述第六计算式为: 式中, g为所述唤醒平均响应时间, 为第i次成功唤醒的响应时间, X为成功唤醒的总次 数; 和/或, 采用第七计算式计算每一功能对应的所述功能识别率, 所述第七计算式为: =对第i 个功能的成功 识别次数/识别总次数, 为第i个功能对应的功能识别率; 和/或, 采用第八计算式计算所述识别性能指标, 所述第八计算式包括: 权 利 要 求 书 2/4 页 3 CN 115410561 A 3
专利 基于车载多模交互的语音识别方法及装置、介质和设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 16:58:02
上传分享
举报
下载
原文档
(935.7 KB)
分享
友情链接
GB-T 20261-2020 信息安全技术 系统安全工程 能力成熟度模型.pdf
思度安全-DSMM-016 合规管理规范V1.0.pdf
GB-T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第1部分:概念和模型.pdf
悬镜SDL-DevSecOps安全开发建设v6.pdf
GB-T 51314-2018 数据中心基础设施运行维护标准.pdf
GB-T 32770-2016 竹子名词术语.pdf
T-ACEF 030—2022 城镇排水系统 厂、站、网一体化 运行监测与智能化管理技术规程.pdf
DB37-T 1933—2022 氯碱安全生产技术规范 山东省.pdf
GB-T 42884-2023 信息安全技术 移动互联网应用程序 App 生命周期安全管理指南.pdf
GB-T 30903-2014 无机化工产品 杂质元素的测定 电感耦合等离子体质谱法(ICP-MS).pdf
DB41-T 1047-2015 锅炉风机节能潜力评估导则 河南省.pdf
GB-T 15310.2-2009 国际贸易出口单证格式 第2部分:装箱单.pdf
GB-T 10089-2018 圆柱蜗杆、蜗轮精度.pdf
GB-T 20520-2006 信息安全技术 公钥基础设施 时间戳规范.pdf
SN-T 1306-2017 出入境人员预防接种或预防措施国际证书签发规程.pdf
GB-T 26766-2019 城市公共汽电车车载智能终端.pdf
GB-T 18386.1-2021 电动汽车能量消耗量和续驶里程试验方法 第1部分:轻型汽车.pdf
DB15-T 2007—2020 党政机关办公区突发事件应急预案编制导则 内蒙古自治区.pdf
GB-T 19115.1-2018 风光互补发电系统 第1部分:技术条件.pdf
DB34-T 3047-2017 普通干线公路施工标准化指南 安徽省.pdf
交流群
-->
1
/
3
22
评价文档
赞助2元 点击下载(935.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。