说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210203644.5 (22)申请日 2022.03.03 (71)申请人 北京小米移动软件 有限公司 地址 100085 北京市海淀区西二 旗中路33 号院6号楼8层018号 申请人 北京小米松果电子有限公司 (72)发明人 张芮 彭力  (74)专利代理 机构 北京善任知识产权代理有限 公司 11650 专利代理师 张振伟 孟桂超 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 实体关系抽取方法、 装置、 终端及存 储介质 (57)摘要 本公开实施例公开了一种实体关系抽取方 法、 装置、 终端及存储介质; 所述方法包括: 获取 至少一个训练样本的第一关系数据; 将所述第一 关系数据所在的所述训练样本输入到所述第一 关系抽取模 型进行识别, 以获得所述训练样本的 第二关系数据; 将所述第一关系数据及所述第二 关系数据输入到所述第一关系抽取模型进行迭 代, 以更新所述第一关系抽取模 型得到第二关系 抽取模型; 将目标文本输入到所述第二关系抽取 模型进行训练, 以获得所述目标文本的目标关系 数据。 权利要求书4页 说明书22页 附图5页 CN 115017324 A 2022.09.06 CN 115017324 A 1.一种实体关系抽取 方法, 其特 征在于, 所述方法包括: 获取至少一个训练样本的第一关系数据; 将所述第一关系数据 所在的所述训练样本输入到所述第 一关系抽取模型进行识别, 以 获得所述训练样本的第二关系数据; 将所述第一关系数据及所述第 二关系数据输入到所述第 一关系抽取模型进行迭代, 以 更新所述第一关系抽取模型 得到第二关系抽取模型; 将目标文本输入到所述第 二关系抽取模型进行训练, 以获得所述目标文本的目标关系 数据。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法包括: 获取至少一个所述训练样本的样本信 息; 其中, 所述样本信 息包括: 至少一个样本关系 的主语信息及宾语信息; 所述主语信息包括主语头指针信息与主语尾指针信息; 所述宾语 信息包括宾语头指针信息及宾语 尾指针信息; 将所述样本信 息输入到所述第 二关系抽取模型进行迭代训练, 直至所述第 二关系抽取 模型的损失函数满足收敛 条件, 得到训练后的所述第二关系抽取模型; 所述将目标文本输入到所述第 二关系抽取模型进行训练, 以获得所述目标文本的目标 关系数据, 包括: 将所述目标文本输入到训练后的所述第 二关系抽取模型, 以获得所述目标文本的所述 目标关系数据。 3.根据权利要求2所述的方法, 其特征在于, 将所述样本信 息输入到所述第 二关系抽取 模型中进行的一次迭代训练, 包括: 将至少一个所述样本关系的主语信 息及宾语信 息输入到所述第 二关系抽取模型, 构建 当前次迭代训练的损失值; 基于所述损失值更新所述第 二关系抽取模型, 得到当前次迭代训练后的所述第 二关系 抽取模型。 4.根据权利要求3所述的方法, 其特征在于, 所述将至少一个所述样本关系的主语信 息 及宾语信息 输入到所述第二关系抽取模型, 构建 当前次迭代训练的损失值, 包括: 基于各所述训练样本, 获取 各所述训练样本的编码信息; 基于所述编码信 息及主语分类器, 获取所述训练样本的预测主语信 息, 其中, 所述预测 主语信息包括: 预测主语头指针信息及预测主语 尾指针信息; 基于所述编码信 息及宾语分类器, 获取所述训练样本的预测宾语信 息, 其中, 所述预测 宾语信息, 包括: 预测宾语头指针信息及预测宾语 尾指针信息; 基于所述训练样本的至少一个所述样本关系的主语信 息及对应的预测主语信 息、 宾语 信息及对应的预测宾语信息, 获取当前次迭代训练的损失值。 5.根据权利要求 4所述的方法, 其特 征在于, 所述方法包括: 对所述训练样本的编码信 息及主语向量表征进行融合处理, 得到 融合后的融合向量表 征; 其中, 所述主语向量表征基于所述预测主语头指针信息及预测尾指针信息确定; 所述基于所述编码信息及宾语分类 器, 获取所述训练样本的预测宾语信息, 包括: 基于所述融合向量表征及所述宾语分类 器, 获取所述训练样本的所述预测宾语信息 。 6.根据权利要求 4所述的方法, 其特 征在于, 所述方法包括:权 利 要 求 书 1/4 页 2 CN 115017324 A 2若一个所述训练样本包括至少两个主语, 在一个所述主语的所述预测主语头指针信 息 所指示的位置的预定范围内, 确定与所述主语的所述预测主语头指 针信息对应的所述预测 主语尾指针信息 。 7.根据权利要求4所述的方法, 其特征在于, 所述基于所述训练样本的至少一个所述样 本关系的主语信息及对应的预测主语信息、 宾语信息及对应的预测宾语信息, 获取当前次 迭代训练的损失值, 包括: 基于至少一个所述训练样本的至少一个所述样本关系的所述主语信息及预测主语信 息, 获得主语损失值; 基于至少一个所述训练样本的至少一个所述样本关系的所述宾语信息及预测宾语信 息, 获得宾语损失值; 其中, 所述宾语损失值包括: 表征主语存在宾语关系的第一宾语损失 值、 及表征主语不存在宾语关系的第二宾语损失值; 基于至少一个所述训练样本的所述主语损失值及所述宾语损失值的和, 获取当前次迭 代训练的损失值。 8.根据权利要求7所述的方法, 其特征在于, 所述基于至少一个所述训练样本的所述主 语损失值及所述宾语损失值的和, 获取当前次迭代训练的损失值, 包括: 基于所述训练样本的宾语损失值及权重系数, 获得所述训练样本加权后的宾语损失 值; 基于至少一个所述训练样本的所述主语损失值及加权后的宾语损失值的和, 获取当前 次迭代训练的损失值。 9.根据权利要求4所述的方法, 其特征在于, 所述基于各所述训练样本, 获取各所述训 练样本的编码信息, 包括: 将各所述训练样本输入到预训练模型, 获得各所述训练样本的所述编码信息; 其中, 所 述预训练模型中包括各 备选字与编码信息的对应关系。 10.一种实体关系抽取 方法, 其特 征在于, 所述方法包括: 获取至少一个所述训练样本的样本信 息; 其中, 所述样本信 息包括: 至少一个样本关系 的主语信息及宾语信息; 所述主语信息包括主语头指针信息与主语尾指针信息; 所述宾语 信息包括宾语头指针信息及宾语 尾指针信息; 将所述样本信 息输入到所述第 二关系抽取模型进行迭代训练, 直至所述第 二关系抽取 模型的损失函数满足收敛 条件, 得到训练后的所述第二关系抽取模型; 将目标文本输入到训练后的所述第 二关系抽取模型, 以获得所述目标文本的所述目标 关系数据。 11.一种实体关系抽取装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取至少一个训练样本的第一关系数据; 第一识别模块, 用于将所述第 一关系数据 所在的所述训练样本输入到所述第 一关系抽 取模型进行识别, 以获得 所述训练样本的第二关系数据; 第一处理模块, 用于将所述第 一关系数据及所述第 二关系数据输入到所述第 一关系抽 取模型进行迭代, 以更新所述第一关系抽取模型 得到第二关系抽取模型; 第二处理模块, 用于将目标文本输入到所述第二关系抽取模型进行训练, 以获得所述 目标文本的目标关系数据。权 利 要 求 书 2/4 页 3 CN 115017324 A 3

.PDF文档 专利 实体关系抽取方法、装置、终端及存储介质

文档预览
中文文档 32 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体关系抽取方法、装置、终端及存储介质 第 1 页 专利 实体关系抽取方法、装置、终端及存储介质 第 2 页 专利 实体关系抽取方法、装置、终端及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:58:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。