说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221042842 2.3 (22)申请日 2022.04.22 (71)申请人 润联软件系统 (深圳) 有限公司 地址 518000 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园2栋801 (72)发明人 王伟 张黔 陈焕坤 郑毅  (74)专利代理 机构 深圳市世联合知识产权代理 有限公司 4 4385 专利代理师 姜妍 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01) (54)发明名称 基于知识图谱的文档检索方法及其相关设 备 (57)摘要 本申请实施例属于人工智能领域, 涉及一种 基于知识图谱的文档检索方法及其相关设备, 包 括对待检索文档集合中的文档进行分词, 得到文 档分词集合, 构建目标知识图谱; 基于目标知识 图谱计算检索关键词之间的语义距离, 确定最大 语义距离对应的检索关键词为中心关键词; 基于 中心关键词构建第一子图和第二子图, 计算第一 子图和第二子图中的节点数, 根据节 点数选取最 大语义子图; 基于图卷积神经网络对最大语义子 图进行特征提取得到特征向量; 提取文档的主题 词并计算主题词的主题嵌入向量; 计算主题嵌入 向量和特征向量的向量相似度, 确定向量相似度 大于等于预设相似阈值的主题嵌入向量对应的 文档为目标检索文档。 本申请实现了对目标检索 文档的高效筛 选。 权利要求书2页 说明书15页 附图5页 CN 114780746 A 2022.07.22 CN 114780746 A 1.一种基于知识图谱的文档检索方法, 其特 征在于, 包括下述 步骤: 获取待检索文档集合, 对所述待检索文档集合中的文档进行分词处理, 得到文档分词 集合, 基于所述文档分词集 合构建目标知识图谱; 在接收到多个检索关键词时, 基于所述目标知识图谱计算所述检索关键词之间的语义 距离, 确定最大语义距离对应的两个 检索关键词为两个中心关键词; 基于两个所述中心关键词分别构建第 一子图和第 二子图, 分别计算所述第 一子图和所 述第二子图中的节点数, 根据所述节点数从所述第一子图和所述第二子图中选取最大语义 子图; 获取预设的图卷积神经网络, 基于所述图卷积神经网络对所述最大语义子图进行特征 提取, 得到特 征向量; 提取所述待检索文档集合中每个所述文档的主题词, 并计算所述主题词的主题嵌入向 量; 计算每个所述主题嵌入向量和所述特征向量的向量相似度, 确定所述向量相似度 大于 等于预设相似阈值的主题嵌入向量为目标嵌入向量, 将所述目标嵌入向量对应的文档作为 目标检索文档。 2.根据权利要求1所述的基于知识图谱的文档检索方法, 其特征在于, 所述基于所述目 标知识图谱计算所述检索关键词之间的语义距离的步骤 包括: 获取所述目标知识图谱对应的参考知识图谱, 根据 所述参考知识图谱确定所有所述检 索关键词之间的距离 权重; 计算所述检索关键词之间的嵌入相似度, 以及每个所述检索关键词在所述目标知识图 谱中对应边节点的嵌入向量之和, 根据所述距离权重、 所述嵌入相似度和所述嵌入向量之 和, 计算得到所述检索关键词之间的语义距离 。 3.根据权利要求2所述的基于知识图谱的文档检索方法, 其特征在于, 所述根据 所述参 考知识图谱确定所述检索关键词之间的距离 权重的步骤 包括: 获取所述检索关键词在所述参考知识图谱中的类别属性和层级, 根据 所述类别属性和 所述层级确定所述检索关键词之间的距离 权重。 4.根据权利要求3所述的基于知识图谱的文档检索方法, 其特征在于, 所述根据 所述类 别属性和所述层级确定所述检索关键词之间的距离 权重的步骤 包括: 判断每个所述检索关键词之间的类别属性是否相同, 以及每个所述检索 关键词之间的 层级是否相同, 在所述检索关键词的所述类别属 性相同且所述层级相同时, 确定所述检索 关键词之间的距离 权重为预设权 重; 在所述类别属性不同, 或者所述类别属性相同且所述层级不同时, 获取所述检索关键 词在所述参考知识图谱中共同的上级实体, 计算所述上级实体和所述检索关键词的层级距 离, 根据所述层级距离计算得到所述检索关键词之间的距离 权重。 5.根据权利要求1所述的基于知识图谱的文档检索方法, 其特征在于, 所述提取所述待 检索文档集 合中每个所述文档的主题词的步骤 包括: 获取每个所述文档的词数, 根据所述词数对所述文档进行升序排序, 得到文档队列; 获取所述文档队列中最低次序的文档对应的主题词数量, 将所述最低次序的文档对应 的主题词数量作为最低阈值, 基于所述最低阈值, 按照所述文档队列的排列顺序对所述文权 利 要 求 书 1/2 页 2 CN 114780746 A 2档队列中其他文档的主题词数量依次进行递增, 直至所述主题词数量达到预设的最大阈 值; 按照所述最低阈值至所述最大阈值的顺序和数量, 依次提取所述文档队列中文档的主 题词。 6.根据权利要求1所述的基于知识图谱的文档检索方法, 其特征在于, 所述基于所述图 卷积神经网络对所述 最大语义子图进行 特征提取, 得到特 征向量的步骤 包括: 计算所述 最大语义子图的邻接矩阵和出入度矩阵; 获取预设的权重矩阵, 根据 所述权重矩阵、 所述邻接矩阵和所述出入度矩阵, 通过所述 图卷积神经网络计算得到所述特 征向量。 7.根据权利要求1所述的基于知识图谱的文档检索方法, 其特征在于, 在所述基于所述 目标知识图谱计算所述检索关键词之间的语义距离的步骤之前, 还 包括: 检索所述目标知识图谱, 确定所述目标知识图谱中是否存在所述检索关键词; 在所述目标知识图谱中不存在所述检索关键词时, 获取预设的预训练语言模型, 将所 述检索关键词和所述文档分词集合中的分词分别输入至所述预训练语言模 型中, 计算得到 第一表征向量和第二表征向量; 根据所述第 一表征向量和所述第 二表征向量, 计算得到所述检索 关键词和所述分词的 词相似度, 确定所述词相似度大于等于预设相似度的分词为候选关键词, 将所述检索关键 词替换为所述 候选关键词。 8.一种基于知识图谱的文档检索装置, 其特 征在于, 包括: 构建模块, 用于获取待检索文档集合, 对所述待检索文档集合中的文档进行分词处理, 得到文档分词集 合, 基于所述文档分词集 合构建目标知识图谱; 第一计算模块, 用于在接收到多个检索关键词时, 基于所述目标知识图谱计算所述检 索关键词之间的语义距离, 确定最大语义距离对应的两个 检索关键词为两个中心关键词; 选择模块, 用于基于两个所述中心关键词分别构建第一子 图和第二子 图, 分别计算所 述第一子图和所述第二子图中的节点数, 根据所述节点数从所述第一子图和所述第二子图 中选取最大语义子图; 第二计算模块, 用于获取预设的图卷积神经网络, 基于所述图卷积神经网络对所述最 大语义子图进行 特征提取, 得到特 征向量; 提取模块, 用于提取所述待检索文档集合中每个所述文档的主题词, 并计算所述主题 词的主题嵌入向量; 确认模块, 用于计算每个所述主题嵌入向量和所述特征向量的向量相似度, 确定所述 向量相似度大于等于预设相似阈值的主题嵌入向量为目标嵌入向量, 将所述目标嵌入向量 对应的文档作为目标检索文档。 9.一种计算机设备, 包括存储器和处理器, 所述存储器中存储有计算机可读指令, 所述 处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于知识图谱的 文档检索方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 可读指令, 所述计算机可读指 令被处理器执行时实现如权利要求 1至7中任一项 所述的基于 知识图谱的文档检索方法的步骤。权 利 要 求 书 2/2 页 3 CN 114780746 A 3

.PDF文档 专利 基于知识图谱的文档检索方法及其相关设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的文档检索方法及其相关设备 第 1 页 专利 基于知识图谱的文档检索方法及其相关设备 第 2 页 专利 基于知识图谱的文档检索方法及其相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。