说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210202416.6 (22)申请日 2022.03.03 (71)申请人 中科蓝智 (武汉) 科技有限公司 地址 430000 湖北省武汉市洪山区珞 瑜路 609号联合国际5 05室 (72)发明人 刘伟 冀振燕 董为 孔德焱  王炎  (74)专利代理 机构 武汉红观 专利代理事务所 (普通合伙) 42247 专利代理师 黄鑫 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01)G06F 40/289(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于混合特征表示的实体关系联合抽取系 统及方法 (57)摘要 本发明公开一种基于混合特征表示的实体 关系联合抽取系统及方法, 所述系统包括: 特征 提取模块, 用于从工业文本数据中提取字符级别 特征向量和词级别特征向量; 特征融合模块, 用 于使用最大池化操作对字符级别特征向量和词 级别特征向量进行融合, 生成混合特征向量; 模 型构建模块, 用于基于双 向LSTM编码器、 头实体 识别单元、 实体类型分类单元、 关系 ‑尾实体识别 单元构建实体关系联合抽取模型; 联合识别模 块, 用于将混合特征向量输入到实体 关系联合抽 取模型中, 识别出工业文本数据中所有的实体和 关系。 本发明在多个粒度级别上整合特征信息, 有效处理重叠三元组问题, 可提高实体 关系抽取 的准确度。 权利要求书2页 说明书6页 附图2页 CN 114595338 A 2022.06.07 CN 114595338 A 1.一种基于混合特 征表示的实体关系联合抽取系统, 其特 征在于, 所述系统包括: 特征提取模块: 用于从工业文本数据中提取字符级别特 征向量和词级别特 征向量; 特征融合模块: 用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融 合, 生成混合特 征向量; 模型构建模块: 用于基于双向LSTM编码器、 头实体识别单元、 实体类型分类单元、 关系 ‑ 尾实体识别单 元构建实体关系联合抽取模型; 联合识别模块: 用于将混合特征向量输入到实体关系联合抽取模型中, 识别出工业文 本数据中所有的实体和关系。 2.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统, 其特征在于, 所 述特征提取模块具体用于: 基于CNN模型从工业文本数据中提取字符级别特征向量, 同时使用中文分词器对工业 文本数据进行分词, 将分词之后的单词与外部词典信息和外部知识库做匹配, 通过 Word2Vec模型获取词级别特 征向量。 3.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统, 其特征在于, 所 述模型构建模块中, 所述双向LSTM编码器为带有注意力机制的双向LSTM模型, 用于对输入 的混合特征向量进行编码, 提取工业文本数据文本中长距离命名实体之间的依赖关系, 同 时提取工业文本数据中字符 之间、 字符与命名实体之间以及实体字符位置之间的相关性。 4.根据权利要求3所述的基于混合特征表示的实体关系联合抽取系统, 其特征在于, 所 述模型构建模块中, 所述头实体识别单元包括两个相同的第一二元分类器, 用于对双向 LSTM编码 器输出的编 码后的混合特征向量进 行标记, 每个标记分配一个二进制标识 来分别 检测实体的开始位置和结束位置, 基于实体的开始位置和结束位置生成多个实体特征向 量。 5.根据权利要求4所述的基于混合特征表示的实体关系联合抽取方法, 其特征在于, 所 述模型构建模块中, 所述 实体类型分类单元用于将每个实体特征向量分别与编 码后的混合 特征向量拼接作为输入, 通过Softmax的概率输出来对实体进 行分类, 并设置概率阈值进 行 实体过滤, 去除低于概率阈值的实体和非实体, 保留大于或等于概率阈值的实体作为头实 体。 6.根据权利要求5所述的基于混合特征表示的实体关系联合抽取系统, 其特征在于, 所 述模型构建模块中, 所述关系 ‑尾实体识别单元将关系和尾实体的识别作为一个机器阅读 理解任务, 通过先验知识获取关系的描述信息, 将关系的描述信息和头实体拼接作为机器 阅读理解任务的问题, 将编码后的混合特征向量作为机器阅读理解任务的段落, 以阅读理 解的方式嵌入到预训练的BERT模型中, 并通过两个第二二元分类器识别与输入的关系的描 述信息和头实体对应的尾实体; 所述预训练的BERT模型中, 使用多头自注意机制捕获token之间 的交互信息, 为工业文 本数据提供先验知识, 同时在训练的过程中捕获上下文语义特征信息, 从而消除同音异义 词的歧义, 表达语义和句法模式。 7.根据权利要求6所述的基于混合特征表示的实体关系联合抽取系统, 其特征在于, 所 述关系‑尾实体识别单元中, 第二二元分类器为给定上下文和特定查询 输出多个开始位置 索引和多个结束位置索引, 支持根据查询提取 所有相关实体。权 利 要 求 书 1/2 页 2 CN 114595338 A 28.一种基于混合特 征表示的实体关系联合抽取 方法, 其特 征在于, 所述方法包括: S1、 从工业文本数据中提取字符级别特 征向量和词级别特 征向量; S2、 使用最大池化操作对字符级别特征向量和词级别特征向量进行融合, 生成混合特 征向量; S3、 通过带有注意力机制的双向LSTM模型对输入的混合特 征向量进行编码; S4、 通过两个相同的第一二元分类器对双向LSTM编码器输出的编码后的混合特征向量 hN进行标记, 每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置, 生成 多个实体特 征向量; S5、 将每个实体特征向量分别与编码后的混合特征向量拼接, 通过Softmax的概率输出 来对实体进行分类, 并设置概率阈值进行实体过滤, 保留大于或等于概率阈值的实体作为 头实体; S6、 将关系和尾实体的识别作为一个机器阅读理解任务, 使用预训练的BERT模型对以 关系的描述信息和头实体拼接作为问题、 以编 码后的混合特征向量作为段落的两个句子进 行编码, 并通过两个第二 二元分类 器实现尾实体识别。 9.一种电子设备, 其特征在于, 包括: 至少一个处理器、 至少一个存储器、 通信 接口和总 线; 其中, 所述处 理器、 存储器、 通信接口通过 所述总线完成相互间的通信; 所述存储器存储有可被所述处理器执行的程序指令, 所述处理器调用所述程序指令, 以实现如权利要求8所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机指 令, 所述计算机指令使计算机实现如权利要求8所述的方法。权 利 要 求 书 2/2 页 3 CN 114595338 A 3

.PDF文档 专利 基于混合特征表示的实体关系联合抽取系统及方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于混合特征表示的实体关系联合抽取系统及方法 第 1 页 专利 基于混合特征表示的实体关系联合抽取系统及方法 第 2 页 专利 基于混合特征表示的实体关系联合抽取系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。