说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210356716.X (22)申请日 2022.04.06 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 陈伟 王盛辉 周海波 成功 赵领杰 王磊 (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 任亚娟 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 16/35(2019.01)G06F 16/33(2019.01) (54)发明名称 文本去重方法及 装置、 电子设备及可读存储 介质 (57)摘要 本发明公开了一种文本去重方法及装置、 电 子设备及可读存储介质。 其中, 该方法包括: 获取 查询输入对应的多个结果文本; 在预先构建的同 义词知识库中对多个结果文本进行匹配, 其中, 同义词知识库是根据预先训练完成的文本去重 模型的预测结果生成的, 文本去重模 型用于根据 结果文本的文本特征、 上下文特征以及扩展特征 进行语义重复预测; 根据同义词知识库的匹配结 果筛除多个结果文本中的重复文本。 本发明解决 了由于相关技术中由于线上模型实时推理, 准确 度以及时效性较 差的技术问题。 权利要求书2页 说明书10页 附图2页 CN 114818672 A 2022.07.29 CN 114818672 A 1.一种文本去重方法, 其特 征在于, 包括: 获取查询输入 对应的多个结果文本; 在预先构建的同义词知识库中对所述多个结果文本进行匹配, 其中, 所述同义词知识 库是根据预先训练完成的文本去重模型的预测结果生成的, 所述文本去重模型用于根据所 述结果文本的文本特 征、 上下文特征以及扩展特 征进行语义重复预测; 根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本 。 2.根据权利要求1所述的方法, 其特征在于, 在所述获取查询输入对应的多个结果文本 之前, 还包括: 通过所述文本去重模型, 根据第一文本数据以及第二文本数据分别对应的文本特征、 上下文特征以及扩展 特征进行语义重复预测, 以得到所述第一文本数据以及第二文本数据 的预测结果; 若所述预测结果为文本语义相同, 则将所述第 一文本数据以及所述第 二文本数据加入 至所述同义词知识库中。 3.根据权利要求2所述的方法, 其特征在于, 所述文本去重模型包括文本处理子模块以 及压缩交 互层, 其中, 通过所述文本去重模型, 根据第一文本数据以及第二文本数据分别对应的文本特征、 上下文特征以及扩展特 征进行语义重复预测, 包括: 通过所述文本处理子模块, 根据所述第 一文本数据的第 一文本特征以及所述第 二文本 数据的第二文本特 征确定第一向量表示; 通过所述压缩交 互层, 根据所述上 下文特征以及所述扩展特 征确定第二向量表示; 根据所述第 一文本数据以及所述第 二文本数据分别对应的文本特征、 上下文特征以及 扩展特征, 确定第三向量表示; 根据所述第一向量表示、 所述第二向量表示以及所述第三向量表示确定所述预测结 果。 4.根据权利要求3所述的方法, 其特征在于, 所述文本去重模型包括分类层以及特征增 强层, 其中, 根据所述第一向量表示、 所述第二向量表示以及所述第三向量表 示确定所述预 测结果, 包括: 对所述第一向量表示、 所述第二向量表示以及所述第三向量表示进行向量加和, 以得 到第四向量表示; 通过所述特征增强层, 对所述第四向量表示进行 特征增强, 以得到第五向量表示; 通过所述分类层, 对所述第五向量表示, 以确定所述第一文本与所述第二文本的预测 结果。 5.根据权利要求2所述的方法, 其特征在于, 若所述预测结果为文本语义相同, 则将所 述第一文本数据以及所述第二文本数据加入至所述同义词知识库中, 包括: 根据所述第 一文本数据以及所述第 二文本数据对应的文本语义, 确定所述文本语义对 应的所述同义词知识库, 其中, 所述同义词知识库中的文本对之间的语义距离小于预设语 义距离阈值; 将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。 6.一种文本去重装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 114818672 A 2获取模块, 用于获取查询输入 对应的多个结果文本; 匹配模块, 用于在预先构建的同义词知识库中对所述多个结果文本进行匹配, 其中, 所 述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的, 所述文本去重模 型用于根据所述结果文本的文本特 征、 上下文特征以及扩展特 征进行语义重复预测; 去重模块, 用于根据 所述同义词知识库的匹配结果筛除所述多个结果文本 中的重复文 本。 7.根据权利要求6所述的装置, 其特 征在于, 还 包括: 分类模块, 用于在所述获取查询输入对应的多个结果文本之前, 通过所述文本去重模 型, 根据第一文本数据以及第二文本数据分别对应的文本特征、 上下文特征以及扩展特征 进行语义重复预测, 以得到所述第一文本数据以及第二文本数据的预测结果; 存储模块, 用于若所述预测结果为文本语义相同, 则将所述第一文本数据以及所述第 二文本数据加入至所述同义词知识库中。 8.根据权利要求7所述的装置, 其特征在于, 所述文本去重模型包括文本处理子模块以 及压缩交 互层, 其中, 所述分类模块包括: 第一确定子模块, 用于通过所述文本处理子模块, 根据所述第一文本数据的第一文本 特征以及所述第二文本数据的第二文本特 征确定第一向量表示; 第二确定子模块, 用于通过所述压缩交互层, 根据所述上下文特征以及所述扩展特征 确定第二向量表示; 第三确定子模块, 用于根据 所述第一文本数据以及所述第 二文本数据分别对应的文本 特征、 上下文特征以及扩展特 征, 确定第三向量表示; 第四确定子模块, 用于根据所述第一向量表示、 所述第二向量表示以及所述第三向量 表示确定所述预测结果。 9.根据权利要求8所述的装置, 其特 征在于, 所述第四确定 子模块包括: 处理单元, 用于对所述第一向量表示、 所述第二向量表示以及所述第三向量表示进行 向量加和, 以得到第四向量表示; 特征增强单元, 用于通过所述特征增强层, 对所述第四向量表示进行特征增强, 以得到 第五向量表示; 确定单元, 用于通过所述分类层, 对所述第五向量表示, 以确定所述第 一文本与所述第 二文本的预测结果。 10.根据权利要求7 所述的装置, 其特 征在于, 所述存 储模块包括: 根据所述第 一文本数据以及所述第 二文本数据对应的文本语义, 确定所述文本语义对 应的所述同义词知识库, 其中, 所述同义词知识库中的文本对之间的语义距离小于预设语 义距离阈值; 将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。 11.一种电子设备, 其特征在于, 包括处理器, 存储器及存储在所述存储器上并可在所 述处理器上运行 的程序或指令, 所述程序或指令被所述处理器执行时实现如权利要求1 ‑5 所述的文本去重方法的步骤。 12.一种可读存储介质, 其特征在于, 所述可读存储介质上存储程序或指令, 所述程序 或指令被处 理器执行时实现如权利要求1 ‑5所述的文本去重方法的步骤。权 利 要 求 书 2/2 页 3 CN 114818672 A 3
专利 文本去重方法及装置、电子设备及可读存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:48
上传分享
举报
下载
原文档
(511.3 KB)
分享
友情链接
GB-T 35295-2017信息技术大数据术语.pdf
DB34-T 4686-2024 挥发性有机物走航监测技术规范 安徽省.pdf
tc260 网络安全标准实践指南 数据分类分级指引 2022 .pdf
GB-T 12727-2023 核电厂安全重要电气设备鉴定.pdf
GB-T 20848-2017 系泊链.pdf
T-ZZB 1855—2020 全包覆节能装饰板.pdf
T-JSHLW 009—2021 云端融合工业互联网平台技术规范.pdf
GB-T 18238.1-2000 信息技术 安全技术 散列函数 第1部分 概述.pdf
GB-T 31454-2015 公路收费车道图像抓拍与处理.pdf
GB/T 25387.2-2021 风力发电机组 全功率变流器 第2部分:试验方法.pdf
GB-T 41867-2022 信息技术 人工智能 术语.pdf
SY-T 0003-2021 石油天然气工程制图规范.pdf
GM-T 0024-2014 SSL VPN技术规范.pdf
GB-T 19668.4-2017 信息技术服务监理第4部分信息安全监理规范.pdf
YD-T 3751-2020 车联网信息服务数据安全技术要求.pdf
GB-T 36896.3-2018 轻型有缆遥控水下机器人 第3部分:导管螺旋桨推进器.pdf
DB43-T 1851-2020 张家界莓茶种植技术规程 湖南省.pdf
GB-T 16264.8-2005 信息技术 开放系统互连 目录 第8部分 公钥和属性证书框架.pdf
GB-T 21294-2024 服装理化性能的检验方法.pdf
GB-T 35913-2018 地采暖用实木地板技术要求.pdf
交流群
-->
1
/
3
15
评价文档
赞助2元 点击下载(511.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。