专利 文本去重方法及装置、电子设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210356716.X (22)申请日 2022.04.06 (71)申请人北京三快在线科技有限公司地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人陈伟　王盛辉　周海波　成功　赵领杰　王磊　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师任亚娟 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 16/35(2019.01)G06F 16/33(2019.01) (54)发明名称文本去重方法及装置、电子设备及可读存储介质 (57)摘要本发明公开了一种文本去重方法及装置、电子设备及可读存储介质。其中，该方法包括：获取查询输入对应的多个结果文本；在预先构建的同义词知识库中对多个结果文本进行匹配，其中，同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的，文本去重模型用于根据结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测；根据同义词知识库的匹配结果筛除多个结果文本中的重复文本。本发明解决了由于相关技术中由于线上模型实时推理，准确度以及时效性较差的技术问题。权利要求书2页说明书10页附图2页 CN 114818672 A 2022.07.29 CN 114818672 A 1.一种文本去重方法，其特征在于，包括：获取查询输入对应的多个结果文本；在预先构建的同义词知识库中对所述多个结果文本进行匹配，其中，所述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的，所述文本去重模型用于根据所述结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测；根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本。 2.根据权利要求1所述的方法，其特征在于，在所述获取查询输入对应的多个结果文本之前，还包括：通过所述文本去重模型，根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测，以得到所述第一文本数据以及第二文本数据的预测结果；若所述预测结果为文本语义相同，则将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。 3.根据权利要求2所述的方法，其特征在于，所述文本去重模型包括文本处理子模块以及压缩交互层，其中，通过所述文本去重模型，根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测，包括：通过所述文本处理子模块，根据所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征确定第一向量表示；通过所述压缩交互层，根据所述上下文特征以及所述扩展特征确定第二向量表示；根据所述第一文本数据以及所述第二文本数据分别对应的文本特征、上下文特征以及扩展特征，确定第三向量表示；根据所述第一向量表示、所述第二向量表示以及所述第三向量表示确定所述预测结果。 4.根据权利要求3所述的方法，其特征在于，所述文本去重模型包括分类层以及特征增强层，其中，根据所述第一向量表示、所述第二向量表示以及所述第三向量表示确定所述预测结果，包括：对所述第一向量表示、所述第二向量表示以及所述第三向量表示进行向量加和，以得到第四向量表示；通过所述特征增强层，对所述第四向量表示进行特征增强，以得到第五向量表示；通过所述分类层，对所述第五向量表示，以确定所述第一文本与所述第二文本的预测结果。 5.根据权利要求2所述的方法，其特征在于，若所述预测结果为文本语义相同，则将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中，包括：根据所述第一文本数据以及所述第二文本数据对应的文本语义，确定所述文本语义对应的所述同义词知识库，其中，所述同义词知识库中的文本对之间的语义距离小于预设语义距离阈值；将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。 6.一种文本去重装置，其特征在于，包括：权　利　要　求　书 1/2 页 2 CN 114818672 A 2获取模块，用于获取查询输入对应的多个结果文本；匹配模块，用于在预先构建的同义词知识库中对所述多个结果文本进行匹配，其中，所述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的，所述文本去重模型用于根据所述结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测；去重模块，用于根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本。 7.根据权利要求6所述的装置，其特征在于，还包括：分类模块，用于在所述获取查询输入对应的多个结果文本之前，通过所述文本去重模型，根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测，以得到所述第一文本数据以及第二文本数据的预测结果；存储模块，用于若所述预测结果为文本语义相同，则将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。 8.根据权利要求7所述的装置，其特征在于，所述文本去重模型包括文本处理子模块以及压缩交互层，其中，所述分类模块包括：第一确定子模块，用于通过所述文本处理子模块，根据所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征确定第一向量表示；第二确定子模块，用于通过所述压缩交互层，根据所述上下文特征以及所述扩展特征确定第二向量表示；第三确定子模块，用于根据所述第一文本数据以及所述第二文本数据分别对应的文本特征、上下文特征以及扩展特征，确定第三向量表示；第四确定子模块，用于根据所述第一向量表示、所述第二向量表示以及所述第三向量表示确定所述预测结果。 9.根据权利要求8所述的装置，其特征在于，所述第四确定子模块包括：处理单元，用于对所述第一向量表示、所述第二向量表示以及所述第三向量表示进行向量加和，以得到第四向量表示；特征增强单元，用于通过所述特征增强层，对所述第四向量表示进行特征增强，以得到第五向量表示；确定单元，用于通过所述分类层，对所述第五向量表示，以确定所述第一文本与所述第二文本的预测结果。 10.根据权利要求7 所述的装置，其特征在于，所述存储模块包括：根据所述第一文本数据以及所述第二文本数据对应的文本语义，确定所述文本语义对应的所述同义词知识库，其中，所述同义词知识库中的文本对之间的语义距离小于预设语义距离阈值；将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。 11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1 ‑5 所述的文本去重方法的步骤。 12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1 ‑5所述的文本去重方法的步骤。权　利　要　求　书 2/2 页 3 CN 114818672 A 3

专利 文本去重方法及装置、电子设备及可读存储介质

专利文本去重方法及装置、电子设备及可读存储介质