说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210015332.1 (22)申请日 2022.01.07 (71)申请人 北京明略软件系统有限公司 地址 100084 北京市海淀区中关村东路1号 院1号楼10层A10 02 (72)发明人 刘伟硕 于皓 吴信东 吴明辉  张杰  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 代理人 曾军 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本的知识表示方法、 装置、 设备及计算机 可读介质 (57)摘要 本申请涉及一种文本的知识表示方法、 装 置、 设备及计算机可读介质。 该方法包括: 在目标 文本中确定目标实体, 其中, 目标实体为目标文 本中待知识表 示的实体; 在目标文本中将目标 实 体遮盖后, 将目标文本转换为特征向量; 将特征 向量输入语言表征模型, 以利用语 言表征模型确 定遮盖后的目标实体的第一表征向量; 在知 识图 谱中获取与 目标实体相连的其他实体所在的目 标三元组, 并基于第一表征向量和目标三元组对 目标实体进行知识表示。 本申请通过所有与目标 实体的连接的其他实体和关系来学习该目标实 体的知识表 示, 解决了知识表 示的实体信息不完 整的技术问题。 权利要求书2页 说明书9页 附图2页 CN 114398496 A 2022.04.26 CN 114398496 A 1.一种文本的知识 表示方法, 其特 征在于, 包括: 在目标文本中确定目标实体, 其中, 所述目标实体为所述目标文本中待知识表示的实 体; 在所述目标文本中将所述目标实体遮盖后, 将所述目标文本转换为特 征向量; 将所述特征向量输入语言表征模型, 以利用所述语言表征模型确定遮盖后的所述目标 实体的第一表征向量; 在知识图谱中获取与 所述目标实体相连的其他实体所在的目标三元组, 并基于所述第 一表征向量和所述目标三元组对所述目标实体进行知识 表示。 2.根据权利要求1所述的方法, 其特征在于, 在知识图谱中获取与所述目标实体相连的 其他实体所在的目标三元组包括: 获取所述目标实体的标注数据, 其中, 所述标注数据为按照所述目标实体的实体关联 关系预先在所述知识图谱中标注的实体关联 数据; 按照所述标注数据在所述知识图谱中确定所述目标实体以及与所述目标实体连接的 其他实体; 将所述目标实体原有的第 二表征向量、 所述目标实体与 所述其他实体之间的关系向量 以及所述其他实体的第三表征向量按照所述目标实体与所述其他实体之间的链指关系放 入三元组中, 得到所述目标三元组。 3.根据权利要求2所述的方法, 其特征在于, 将所述目标实体原有的第二表征向量、 所 述目标实体与所述其他实体之间的关系向量以及所述其他实体的第三表征向量按照所述 目标实体与所述 其他实体之间的链指关系放入三元组中, 得到所述目标三元组包括: 按照所述链指关系在所述目标实体和所述 其他实体中确定 头实体和尾实体; 将所述头实体对应的表征向量填入所述三元组中的头元素位置, 将所述尾实体对应的 表征向量填入所述三元组中的尾元素位置, 将所述关系向量填入所述三元组中的中间元素 位置, 得到所述目标三元组。 4.根据权利要求3所述的方法, 其特征在于, 基于所述第 一表征向量和所述目标三元组 对所述目标实体进行知识 表示包括: 利用所述目标三元组确定所述目标实体的知识 表示向量 集合; 将所述第一表征向量和所述知识表示向量集合输入全连接层, 得到所述全连接层预测 输出的所述目标实体的知识 表示。 5.根据权利要求4所述的方法, 其特征在于, 利用所述目标三元组确定所述目标实体的 知识表示向量 集合包括: 逐一在所述 其他实体对应的每 个所述目标三元组中确定所述目标实体的位置; 在所述目标实体为所述头实体的情况下, 将当前目标三元组中所述尾实体对应的表征 向量与所述关系向量的向量差加入到所述知识 表示向量 集合中; 在所述目标实体为所述尾实体的情况下, 将当前目标三元组中所述头实体对应的表征 向量与所述关系向量的向量和 加入到所述知识 表示向量 集合中。 6.根据权利要求4所述的方法, 其特征在于, 得到所述全连接层预测输出的所述目标实 体的知识 表示之后, 所述方法还 包括: 将所述目标文本中的剩余实体逐一作为待知识 表示的实体进行知识 表示。权 利 要 求 书 1/2 页 2 CN 114398496 A 27.根据权利要求6所述的方法, 其特征在于, 在对所述目标文本中的实体进行知识表示 的过程中, 所述方法还 包括按照如下 方式优化所述语言表征模型: 将所述第一表征向量和所述知识表示向量集合输入全连接层后, 从所述全连接层中提 取损失函数的损失值; 利用所述损失值调整所述语言表征模型的模型参数, 以对所述语言表征模型进行优 化。 8.一种文本的知识 表示装置, 其特 征在于, 包括: 确定模块, 用于在目标文本中确定目标实体, 其中, 所述目标实体为所述目标文本 中待 知识表示的实体; 转换模块, 用于在所述目标文本中将所述目标实体遮盖后, 将所述目标文本转换为特 征向量; 表征模块, 用于将所述特征向量输入语言表征模型, 以利用所述语言表征模型确定遮 盖后的所述目标实体的第一表征向量; 知识表示模块, 用于在知识图谱中获取与 所述目标实体相连的其他实体所在的目标三 元组, 并基于所述第一表征向量和所述目标三元组对所述目标实体进行知识 表示。 9.一种电子设备, 包括存储器、 处理器、 通信接口及通信总线, 所述存储器中存储有可 在所述处理器上运行 的计算机程序, 所述存储器、 所述处理器通过所述通信总线和所述通 信接口进行通信, 其特征在于, 所述处理器执行所述计算机程序时实现上述权利要求1至7 任一项所述的方法的步骤。 10.一种具有处理器可执行的非易失的程序代码的计算机可读介质, 其特征在于, 所述 程序代码使所述处 理器执行所述权利要求1至7任一所述方法。权 利 要 求 书 2/2 页 3 CN 114398496 A 3

.PDF文档 专利 文本的知识表示方法、装置、设备及计算机可读介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本的知识表示方法、装置、设备及计算机可读介质 第 1 页 专利 文本的知识表示方法、装置、设备及计算机可读介质 第 2 页 专利 文本的知识表示方法、装置、设备及计算机可读介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:58:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。