说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210211001.5 (22)申请日 2022.03.04 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 田孟 冯欣伟 姜文斌 陈帅宇 李斐斐 柴春光 王煜 时鸿剑 孙雨 (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06F 16/36(2019.01)G06N 3/04(2006.01) (54)发明名称 实体链接方法及装置、 设备和介质 (57)摘要 本公开提供了一种实体链接方法及装置、 设 备和介质, 涉及人工智 能技术领域, 尤其涉及知 识图谱、 自然语言处理技术领域。 实现方案为: 确 定目标文本的多个片段, 所述多个片段包括实体 片段和非实体片段; 获取多个候选实体; 针对所 述多个候选实体中的每个候选实体, 获取所述候 选实体与所述多个片段的匹配度, 所述匹配度用 于指示每个候选实体所包括的文字与所述多个 片段所包括的文字的重合程度; 基于每个候选实 体与所述多个片段的匹配度, 确定所述候选实体 与所述目标文本的语义相似度; 以及至少基于所 述每个候选实体与所述目标文本的语义相似度, 从所述多个候选实体中确定用于与所述目标文 本链接的目标实体 。 权利要求书3页 说明书12页 附图4页 CN 114611526 A 2022.06.10 CN 114611526 A 1.一种实体链接方法, 包括: 确定目标文本的多个片段, 所述多个片段包括实体片段和非 实体片段; 获取多个候选实体; 针对所述多个候选实体中的每个候选实体, 获取所述候选实体与所述多个片段的匹配 度, 所述匹配度用于指示每个候选实体所包括的文字与所述多个片段所包括的文字的重合 程度; 基于每个候选实体与 所述多个片段的匹配度, 确定所述候选实体与 所述目标文本的语 义相似度; 以及 至少基于所述每个候选实体与所述目标文本的语义相似度, 从所述多个候选实体 中确 定用于与所述目标文本链接的目标实体。 2.根据权利要求1所述的方法, 其中, 所述基于每个候选实体与所述多个片段的匹配 度, 确定所述 候选实体与所述目标文本的语义相似度包括: 将所述候选实体、 所述目标文本以及所述候选实体与 所述多个片段的匹配度输入语义 匹配神经网络, 以获取所述语义匹配神经网络所输出的所述候选实体与所述目标文本的语 义相似度。 3.根据权利要求2所述的方法, 所述语义匹配神经网络包括第一子神经网络和第二子 神经网络, 并且其中, 所述获取所述语义匹配神经网络所输出的所述候选实体与所述 目标 文本的语义相似度包括: 将所述候选实体、 所述目标文本以及所述候选实体与 所述多个片段的匹配度输入第 一 子神经网络, 以获取所述第一子神经网络所输出的所述候选实体相应的实体向量和所述目 标文本相应的文本向量; 以及 将所述候选实体相应的实体向量和所述目标文本相应的文本向量输入第二子神经网 络, 以获取 所述第二子神经网络所输出的所述 候选实体与所述目标文本的相似度。 4.根据权利要求1 ‑3中任一项所述的方法, 其中, 所述获取多个候选实体包括: 获取多个初始实体; 以及 基于所述目标文本的实体片段, 从所述多个初始实体中确定多个候选实体。 5.根据权利要求1 ‑4中任一项所述的方法, 其中, 所述针对所述多个候选实体 中的每个 候选实体, 获取 所述候选实体与所述多个片段的匹配度包括: 获取所述候选实体与所述多个片段的公共子序列; 以及 基于所述公共子序列, 确定所述 候选实体与所述多个片段的匹配度。 6.根据权利要求1 ‑5中任一项所述的方法, 还 包括: 计算所述多个候选实体中的每个候选实体与所述目标文本的实体片段的编 辑距离, 所 述编辑距离用于指示每 个候选实体与所述目标文本的实体片段的差异程度, 并且其中, 至少基于每个候选实体与所述目标文本的实体片段的编辑距离以及每个候选实体与 所述目标文本的语义相似度, 从所述多个候选实体中确定用于与所述目标文本链接的目标 实体。 7.根据权利要求6所述的方法, 其中, 所述至少基于每个候选实体与 所述目标文本的实 体片段的编辑距离以及每个候选实体与所述目标文本的语义相似度, 从所述多个候选实体 中确定用于与所述目标文本链接的目标实体包括:权 利 要 求 书 1/3 页 2 CN 114611526 A 2基于预设权重, 将所述每个候选实体与 所述目标文本的实体片段的编辑距离以及每个 候选实体与所述目标文本的语义相似度进行加权计算; 以及 基于所述加权计算的结果, 从所述多个候选实体中确定用于与 所述目标文本链接的目 标实体。 8.根据权利要求7所述的方法, 其中, 所述基于预设权重, 将所述每个候选实体与所述 目标文本的实体片段 的编辑距离以及每个候选实体与所述目标文本的语义相似度进行加 权计算包括: 根据预设规则调整所述预设权 重; 以及 基于调整后的所述预设权重, 将所述每个候选实体与 所述目标文本的实体片段的编辑 距离以及每 个候选实体与所述目标文本的语义相似度进行加权计算。 9.根据权利要求1 ‑8中任一项所述的方法, 还 包括: 获取所述多个候选实体中的每个候选实体相应的属性信 息, 所述属性信 息包括与 该候 选实体相关的语义信息, 并且其中, 所述匹配度包括所述候选实体和/或该候选实体相应的属性信息与所述多 个片段的匹配度, 并且基于每个候选实体与所述多个片段 的匹配度, 确定所述候选实体与 所述目标文本的语义相似度包括: 基于所述候选实体和/或该候选实体相应的属性信息与所述多个片段的匹配度, 确定 所述候选实体与所述目标文本的语义相似度。 10.根据权利要求9所述的方法, 所述候选实体是从知识图谱中获取的, 并且其中, 获取 所述多个候选实体中的每 个候选实体相应的属性信息包括: 针对所述多个候选实体中的每个候选实体, 从所述知识图谱中获取与 该候选实体相关 联的节点和边; 以及 获取与该候选实体相关联的节点和边各自的属性信 息, 以得到该候选实体相应的属性 信息。 11.根据权利要求1 ‑10中任一项所述的方法, 还 包括: 基于预设规则, 改写所述目标文本的多个片段中的每个片段, 以得到符合预设条件的 多个片段。 12.根据权利要求1 ‑11中任一项所述的方法, 其中, 所述至少基于所述每个候选实体与 所述目标文本的语义相似度, 从所述多个候选实体中确定用于与所述目标文本链接的目标 实体包括: 至少基于所述每个候选实体与所述目标文本的语义相似度, 对所述多个候选实体进行 排序, 以得到候选实体排序结果; 以及 基于所述 候选实体排序结果, 确定用于与所述目标文本链接的目标实体。 13.一种实体链接装置, 包括: 第一确定单元, 被配置用于确定目标文本的多个片段, 所述多个片段包括实体片段和 非实体片段; 第一获取 单元, 被配置用于获取多个候选实体; 第二获取单元, 被配置用于针对所述多个候选实体中的每个候选实体, 获取所述候选 实体与所述多个片段的匹配度, 所述匹配度用于指示每个候选实体的文字与所述多个片段权 利 要 求 书 2/3 页 3 CN 114611526 A 3
专利 实体链接方法及装置、设备和介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:14
上传分享
举报
下载
原文档
(879.4 KB)
分享
友情链接
GB-T 24364-2023 信息安全技术 信息安全风险管理实施指南.pdf
GB-T 5462-2015 工业盐.pdf
GB-T 24612.1-2009 电气设备应用场所的安全要求 第1部分:总则.pdf
《零售企业数据安全合规指南》2.10.pdf
GB-T 37580-2019 聚乙烯 PE 埋地燃气管道腐蚀控制工程全生命周期要求.pdf
DB35-T 1771-2018 印度豇豆栽培与利用技术规范 福建省.pdf
GB-T 19705-2017 水文仪器信号与接口.pdf
奇安信 2022中国工业数据勒索形势分析报告.pdf
T-ZZB 3057—2023 水车式多工位组合加工机床.pdf
GB-T 33834-2017 微束分析 扫描电子显微术 生物试样扫描电子显微镜分析方法.pdf
DB37-T 4319—2021 水利物联网终端技术规范 山东省.pdf
电子认证服务管理办法.pdf
JR-T0223-2021 金融数据安全 数据生命周期安全规范.pdf
DB3607-T 009-2022 富硒稻谷生产技术规程 江西省.pdf
SN-T 1732.23-2019 烟花爆竹用烟火药剂中铅、铬、镉、汞和砷含量的测定 电感耦合等离子体发射光谱法.pdf
GB-T 31503-2015 信息安全技术 电子文档加密与签名消息语法.pdf
山东省民用建筑节能条例.pdf
T-CESA 1169—2021 信息技术 人工智能 服务器系统性能测试规范.pdf
GB-T 10089-2018 圆柱蜗杆、蜗轮精度.pdf
GB-T 4333.4-2007 硅铁 铝含量的测定 铬天青S分光光度法、EDTA滴定法和火焰原子吸收光谱法.pdf
交流群
-->
1
/
3
20
评价文档
赞助2元 点击下载(879.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。