(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210309850.4
(22)申请日 2022.03.28
(71)申请人 科大讯飞 (苏州) 科技有限公司
地址 215000 江苏省苏州市工业园区金鸡
湖大道88号E4单元
(72)发明人 李安庭 李直旭 瞿剑锋 郑新
陈志刚
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
代理人 王云晓
(51)Int.Cl.
G06F 16/36(2019.01)
(54)发明名称
悬挂实体检测方法、 实体对齐方法及相关设
备
(57)摘要
本发明提供了一种悬挂 实体检测方法、 实体
对齐方法及相关设备, 其中, 悬挂实体检测方法
包括: 获取源知识图谱和目标知识图谱; 利用目
标知识图谱, 从源知识图谱中筛选候选悬挂实
体, 以得到候选悬挂实体集; 基于候选悬挂实体
集中候选悬挂实体的邻居实体在目标知识图谱
中存在同含义实体的情况, 从候选悬挂实体集中
确定悬挂实体。 本发明提供的悬挂实体检测方法
能够准确地检测出源知 识图谱中的悬挂实体。 本
发明在提供了能够准确地检测出源知识图谱中
悬挂实体的悬挂实体检测方法的基础上, 还提供
了一种实体对齐方法, 该实体对齐方法能够获得
较好的实体对齐效果。
权利要求书3页 说明书14页 附图3页
CN 114417019 A
2022.04.29
CN 114417019 A
1.一种悬挂实体 检测方法, 其特 征在于, 包括:
获取源知识图谱和目标知识图谱;
利用所述目标知识图谱, 从所述源知识图谱中筛选候选悬挂实体, 以得到候选悬挂实
体集;
基于所述候选悬挂实体集中候选悬挂实体的若干邻居实体在所述目标知识图谱中存
在同含义实体的情况, 从所述 候选悬挂实体集中确定悬挂实体。
2.根据权利要求1所述的悬挂实体检测方法, 其特征在于, 所述基于所述候选悬挂实体
集中候选悬挂实体的若干邻居实体在所述目标知识图谱中存在同含义实体的情况, 从所述
候选悬挂实体集中确定悬挂实体, 包括:
基于所述候选悬挂实体集中候选悬挂实体的若干邻居实体中目标邻居实体所占的比
例, 从所述候选悬挂实体集中确定悬挂实体, 其中, 所述目标邻居实体为在所述目标知识图
谱中存在同含义实体的邻居实体。
3.根据权利要求1所述的悬挂实体检测方法, 其特征在于, 所述利用所述目标知识图
谱, 从所述源知识图谱中筛 选候选悬挂实体, 包括:
确定所述源知识图谱中每个待检测实体与所述目标知识图谱中每个实体在同一向量
空间中的距离;
根据确定出的距离, 获得所述源知识图谱中各待检测实体分别对应的最近邻距离, 其
中, 所述最近邻距离为对应的待检测实体与所述目标知识图谱中各实体在同一向量空间的
距离中的最小距离;
根据所述源知识图谱中各待检测实体分别对应的最近邻距离, 从所述源知识图谱中的
各待检测实体中筛 选候选悬挂实体。
4.根据权利要求3所述的悬挂实体检测方法, 其特征在于, 确定所述源知识图谱中一待
检测实体与所述目标知识图谱中待与该待检测实体确定距离的目标实体在同一向量空间
中的距离, 包括:
利用图卷积网络, 获取 该待检测实体的表示向量以及所述目标实体的表示向量;
基于所述源知识图谱到所述目标知识图谱的映射矩阵, 将该待检测实体的表示向量映
射到所述目标实体的表示向量所在的向量空间, 以得到该待检测实体的映射后向量;
根据该待检测实体的映射后向量和所述目标实体的表示向量, 确定该待检测实体与 所
述目标实体在同一向量空间中的距离 。
5.根据权利要求3所述的悬挂实体检测方法, 其特征在于, 所述根据所述源知识图谱中
各待检测实体分别对应的最近邻距离, 从所述源知识图谱中的各待检测实体中筛选候选悬
挂实体, 包括:
针对所述源知识图谱中的每个待检测实体, 若该待检测实体对应的最近邻距离大于或
等于预设的距离阈值, 则将该待检测实体确定为 候选悬挂实体;
其中, 所述距离阈值根据已知对齐实体对集确定, 所述已知对齐实体对集中包括若干
个已知的对齐实体对, 每个对齐实体对由所述源知识图谱与所述目标知识图谱中含义相同
的两个实体组成。
6.根据权利要求5所述的悬挂实体检测方法, 其特征在于, 根据 所述已知对齐实体对集
确定所述距离阈值, 包括:权 利 要 求 书 1/3 页
2
CN 114417019 A
2确定所述已知对齐实体对集中的每个对齐实体对所包含的两个实体在同一向量空间
中的距离, 以得到所述已知对齐实体对集中的各对齐实体对分别对应的距离;
根据所述已知对齐实体对集中的各对齐实体对分别对应的距离, 确定所述距离阈值。
7.根据权利要求2所述的悬挂实体检测方法, 其特征在于, 所述基于所述候选悬挂实体
集中候选悬挂实体的若干邻居实体中目标邻居实体所占的比例, 从所述候选悬挂 实体集中
确定悬挂实体, 包括:
遍历所述 候选悬挂实体集中的候选悬挂实体:
针对当前遍历到的候选悬挂实体, 若当前遍历到的候选悬挂实体的若干邻居实体中目
标邻居实体所占的比例大于 当前的比例阈值, 则将当前遍历到的候选悬挂实体确定为悬挂
实体;
其中, 当前的比例阈值根据当前的目标悬挂实体集确定, 当前的目标悬挂实体集中包
括所述源知识图谱中已知的悬挂实体以及截至当前已从所述候选悬挂实体集中确定出的
悬挂实体。
8.根据权利要求7所述的悬挂实体检测方法, 其特征在于, 根据当前的目标悬挂实体集
确定当前的比例阈值, 包括:
确定当前的目标悬挂实体集中每个悬挂实体的若干邻居实体中目标邻居实体所占的
比例, 以得到当前的目标 悬挂实集中各 悬挂实体分别对应的比例;
根据当前的目标 悬挂实集中各 悬挂实体分别对应的比例, 确定当前的比例阈值。
9.根据权利要求7所述的悬挂实体检测方法, 其特征在于, 所述若当前遍历到的候选悬
挂实体的若干邻居实体中目标邻居实体所占的比例大于 当前的比例阈值, 则将当前遍历到
的候选悬挂实体确定为悬挂实体, 包括:
若当前遍历到的候选悬挂实体的若干一级邻居实体中目标一级邻居实体所占的比例
大于当前 的第一比例阈值, 并且, 当前遍历到的候选悬挂实体的若干二级邻居实体中目标
二级邻居实体所占的比例大于 当前的第二比例阈值, 则将当前遍历到的候选悬挂 实体确定
为悬挂实体。
10.一种实体对齐方法, 其特 征在于, 包括:
获取源知识图谱和目标知识图谱;
采用如权利要求1~9中任一项所述的悬挂实体检测方法, 检测出所述源知识图谱中的
悬挂实体;
将所述源知识图谱中的悬挂实体删除;
将删除悬挂实体后的源知识图谱与所述目标知识图谱进行实体对齐。
11.一种悬挂实体检测装置, 其特征在于, 包括: 知识图谱获取模块、 候选悬挂实体筛选
模块和悬挂实体确定模块;
所述知识图谱获取模块, 用于获取源知识图谱和目标知识图谱;
所述候选悬挂实体筛选模块, 用于利用所述目标知识图谱, 从所述源知识图谱中筛选
候选悬挂实体, 以得到候选悬挂实体集;
所述悬挂实体确定模块, 用于基于所述候选悬挂实体集中候选悬挂实体的若干邻居实
体在所述目标知识图谱中存在同含义实体的情况, 从所述候选悬挂实体集中确定悬挂实
体。权 利 要 求 书 2/3 页
3
CN 114417019 A
3
专利 悬挂实体检测方法、实体对齐方法及相关设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:58:28上传分享