说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210383918.3 (22)申请日 2022.04.13 (65)同一申请的已公布的文献号 申请公布号 CN 114465737 A (43)申请公布日 2022.05.10 (73)专利权人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 冯鑫  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 彭程 (51)Int.Cl. H04L 9/32(2006.01) H04L 12/66(2006.01)H04L 67/141(2022.01) H04L 67/10(2022.01) 审查员 何德超 (54)发明名称 一种数据处理方法、 装置、 计算机设备及存 储介质 (57)摘要 本申请实施例公开了一种数据处理方法、 装 置、 计算机设备及存储介质, 可应用于人工智能 场景, 包括: 从多媒体数据的视频帧中获取图片 特征信息; 图片特征信息用于指示视频帧中的角 色图片所属的M个业务对象; 确定多媒体数据中 的N个对象音频帧分别对应的音频语义特征向 量, 对每个对象音频帧对应的音频语义特征向量 进行聚类处理, 得到M个音频聚类簇; N个对象音 频帧是对多媒体数据中的原始音频帧进行对象 定位剥离处理后所得到的; 基于图片特征信息、 M 个音频聚类簇以及与多媒体数据相关联的对象 角色映射表, 识别P个音频聚类簇中的每个音频 聚类簇分别对应的业务角色。 采用本申请实施 例, 可以提高音频角色识别的精确度、 效率以及 适用性。 权利要求书4页 说明书28页 附图13页 CN 114465737 B 2022.06.24 CN 114465737 B 1.一种数据处 理方法, 其特 征在于, 包括: 从多媒体数据的视频帧中获取图片特征信 息; 所述图片特征信 息用于指示所述视频帧 中的角色图片所属的M个业 务对象; M为 正整数; 确定所述多媒体数据中的N个对象音频帧分别对应的音频语义特征向量, 对每个对象 音频帧对应的音频语义特征向量进行聚类处理, 得到M个音频聚类簇; 所述N个对 象音频帧 是对所述多媒体数据中的原始音频帧进 行对象定位剥离处理后所得到的; N为正整 数; 所述 N个对象音频帧分别对应的音频语义特征向量是通过音频语义特征提取模型所确定的; 所 述音频语义特征提取模型包括频域分支网络层、 时域分支网络层以及卷积网络层; 一个音 频聚类簇对应一个业务对象; 所述M个音频聚类簇包括音频聚类簇Ck; k为小于或者等于M的 正整数; 基于所述图片特征信息、 所述M个音频聚类簇以及与所述多媒体数据相关联的对象角 色映射表, 识别P个音频聚类簇中的每个音频聚类簇分别对应的业务角色; P为小于或者等 于M的正整 数; 所述对象角色映射表包括与列 表业务对象具有映射关系的业务角色; 所述列 表业务对象与所述M个业务对象之间存在P个重合的业务对象; 所述音频聚类簇Ck对应的业 务角色是基于与所述音频聚类簇Ck的第一播放时间具有最高时间重叠度的第二播放时间 所对应的业务对象所确定的; 所述具有最高时间重叠度是从所述音频聚类簇Ck的第一播放 时间与P个业 务对象的每 个业务对象的第二 播放时间之间的时间重 叠度中所确定的。 2.根据权利要求1所述的方法, 其特征在于, 所述从多媒体数据的视频帧中获取图片特 征信息, 包括: 从多媒体数据中获取视频帧; 对所述视频帧中的角色关键部位进行图片切割处理, 得到所述视频帧对应的角色图 片; 所述角色图片包括X个角色切割图片; X为大于或者 等于M的正整数; 获取所述X个角色切割图片中的角色切割图片Ti, 对所述角色切割图片Ti进行图片编码 处理, 得到所述角色切割图片Ti对应的图片信息向量 Li; i为小于或者 等于X的正整数; 从与候选对象相关联的信息向量数据库中, 确定与所述图片信息向量Li相匹配的对象 关键信息向量, 将匹配到的对象关键信息向量对应的候选对象作为所述角色切割图片Ti对 应的业务对象; 基于获取到的角色切割图片分别对应的业务对象, 确定所述视频帧对应的图片特征信 息。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述视频帧中的角色关键部位进行 图片切割处 理, 得到所述视频帧对应的角色图片, 包括: 对所述视频帧中的角色关键部位进行检测定位, 确定所述角色关键部位在所述视频帧 中的位置信息; 基于所述位置信 息, 在所述视频帧中切割所述角色关键部位, 得到X个包含所述角色关 键部位的角色切割图片, 将X个角色切割图片作为所述视频帧对应的角色图片。 4.根据权利要求2所述的方法, 其特征在于, 所述从与候选对象相关联的信 息向量数据 库中, 确定与所述图片信息向量Li相匹配的对象关键信息向量, 将匹配到 的对象关键信息 向量对应的候选对象作为所述角色切割图片Ti对应的业 务对象, 包括: 获取与候选对象相关联的信息向量数据库; 所述信息向量数据库用于存储Y个候选对权 利 要 求 书 1/4 页 2 CN 114465737 B 2象分别对应的对象关键信息向量; Y为大于或者 等于M的正整数; 分别确定所述图片信息向量Li与Y个对象关键信息向量中的每个对象关键信息向量之 间的向量距离, 得到 Y个向量距离; 从所述Y个向量距离中获取小于或者等于距离阈值的最小向量距离, 确定所述最小向 量距离对应的对象关键信息向量所对应的候选对象, 将确定的候选对象作为所述角色切割 图片Ti对应的业 务对象。 5.根据权利要求1所述的方法, 其特征在于, 所述确定所述多媒体数据中的N个对象音 频帧分别对应的音频语义特征向量, 对每个对象音频帧对应的音频语义特征向量进行聚类 处理, 得到M个音频聚类簇, 包括: 从所述多媒体数据中获取原始音频帧, 对所述原始音频帧进行对象定位剥离处理, 得 到N个对象音频帧; 通过所述音频语义特征提取模型, 对所述N个对象音频帧中的每个对象音频帧进行语 义特征提取, 得到所述每 个对象音频帧对应的音频语义特 征向量; 将M确定为待聚类的簇心数量, 基于所述簇心数量, 对获取到的每个对象音频帧对应的 音频语义特 征向量进行聚类处 理, 得到M个音频聚类簇 。 6.根据权利要求5所述的方法, 其特征在于, 所述从所述多媒体数据中获取原始音频 帧, 对所述原 始音频帧进行对象定位剥离处 理, 得到N个对象音频帧, 包括: 从所述多媒体数据中获取原 始音频帧; 对所述原 始音频帧进行信源分离, 得到针对所述 业务对象的待处 理音频帧; 基于用于剔除静音帧的音频边界检测策略, 对所述待处理音频帧中的音频冲击信号帧 进行定位切割, 得到N个对象音频帧。 7.根据权利要求6所述的方法, 其特征在于, 所述对所述原始音频帧进行信源分离, 得 到针对所述 业务对象的待处 理音频帧, 包括: 将所述原始音频帧输入至信源分离模型, 通过所述信源分离模型生成所述原始音频帧 对应的频谱幅度谱; 所述信源分离模型包括第一分割网络层和第二分割网络层; 将所述频谱幅度谱分别输入所述第 一分割网络层以及所述第 二分割网络层, 通过所述 第一分割网络层生成所述频谱幅度谱对应的第一类型特征, 通过所述第二分割网络层生成 所述频谱幅度谱 对应的第二类型 特征; 对所述第一类型特征和所述第 二类型特征进行合并掩码处理, 得到所述第 一类型特征 对应的目标掩码图; 基于所述目标掩码图与所述频谱幅度谱, 生成目标类型音频帧, 将所述目标类型音频 帧作为所述信源分离模型 所输出的针对所述 业务对象的待处 理音频帧。 8.根据权利要求5所述的方法, 其特征在于, 所述通过所述音频语义特征提取模型, 对 所述N个对 象音频帧中的每个对 象音频帧进行语义特征提取, 得到所述每个对 象音频帧对 应的音频语义特 征向量, 包括: 将所述N个对象音频帧输入至所述音频语义特 征提取模型; 通过所述频域分支网络层, 对所述 N个对象音频帧进行 特征学习, 得到频域学习特 征; 通过所述时域分支网络层, 对所述N个对象音频帧进行特征学习, 得到时域学习特征; 所述频域学习特 征与所述时域学习特 征之间的特 征维度相同;权 利 要 求 书 2/4 页 3 CN 114465737 B 3

.PDF文档 专利 一种数据处理方法、装置、计算机设备及存储介质

文档预览
中文文档 46 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共46页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据处理方法、装置、计算机设备及存储介质 第 1 页 专利 一种数据处理方法、装置、计算机设备及存储介质 第 2 页 专利 一种数据处理方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:16:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。