说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210373359.8 (22)申请日 2022.04.11 (71)申请人 中国软件与技 术服务股份有限公司 地址 100081 北京市海淀区学院南路5 5号 (中软大厦) (72)发明人 程序 杨春平 谭太龙 王峰 罗洪海 谷金哲 周军 孙延春 孙蕾 王纲 吴凡 (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 邱晓锋 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) (54)发明名称 基于知识图谱的自动化构建知识库的方法 及系统 (57)摘要 本发明涉及一种基于知识图谱的自动化构 建知识库的方法及系统。 该方法包括: 获取非结 构化的数据, 并对数据进行处理以形成训练集文 件和预测集文件; 图形化地构建知识图谱的 Schema, 用于描述领域中实体与实体之间的关 系; 根据构建的Sch ema对训练集文件中的实体进 行标注; 利用标注后的文件和以及预先建立的规 则集文件, 训练用于预测实体间关系的服务模 型; 将预测集文件输入训练完成的服务模型, 执 行预测任务, 得到预测结果 即实体‑关系‑实体的 三元组数据; 将服务模型的预测结果转换为知识 图谱, 并将知识图谱自动化地添加到知识库中。 本发明能够实现知识图谱的自动化构建, 为利用 数据洞察隐藏的关键信息提供了极大的便利。 权利要求书2页 说明书7页 附图4页 CN 114911893 A 2022.08.16 CN 114911893 A 1.一种基于知识图谱的自动化构建知识库的方法, 其特 征在于, 包括以下步骤: 获取非结构化的数据, 并对数据进行处 理以形成训练集文件和预测集文件; 图形化地构建知识图谱的Sc hema, 用于描述领域中实体与实体之间的关系; 根据构建的Sc hema对训练集文件中的实体进行 标注; 利用标注后的文件和以及预先建立的规则集文件, 训练用于预测实体间关系的服务模 型; 将预测集文件输入训练完成的服务模型, 执行预测任务, 得到预测结果即实体 ‑关系‑ 实体的三元组数据; 将服务模型的预测结果 转换为知识图谱, 并将知识图谱自动化 地添加到知识库中。 2.根据权利要求1所述的方法, 其特征在于, 所述获取非结构化的数据, 数据的来源有 两方面: 一是将终端本地的文档进行上传, 文件较多时批量上传; 二是定时任务上传, 从下 载平台定时地获取文档, 根据不同的需求下 载相应的文档, 并进行 上传。 3.根据权利要求1所述的方法, 其特征在于, 所述对数据进行处理以形成训练集文件和 预测集文件, 包括: a)进行数据清洗, 对数据进行重新审查和校验, 删除重复的数据, 纠正错误的数据, 在 规定时间补全残缺数据, 并且提供 数据的一 致性; b)将数据转化成TXT格式, 并分别生成训练集和预测集文件, 以供模型的训练及预测使 用。 4.根据权利要求1所述的方法, 其特征在于, 所述图形化地构建知识图谱的Schema, 是 采用可拖拽的方式构建Sc hema。 5.根据权利要求1所述的方法, 其特 征在于, 所述 服务模型为BERT+CRF模型。 6.根据权利要求1所述的方法, 其特征在于, 所述将服务模型的预测结果转换为知识图 谱, 包括: 采用聚类技术对服务模型预测的实体 ‑关系‑实体的三元组数据进行消歧和关系 融合, 然后利用脚本文件 对产生的结果进行解析, 形成知识图谱。 7.根据权利要求1所述的方法, 其特征在于, 所述知识库使用图形数据库进行存储, 所 述图形数据库为 Neo4j图形数据库。 8.一种采用权利要求1~7中任一权利要求所述方法的基于知识图谱的自动化构建知 识库的系统, 其特征在于, 包括项目管 理模块、 数据管 理模块、 构建Schema模块、 数据标注模 块、 模型训练模块、 批量预测模块、 知识图谱 模块; 所述项目管理模块用于创建并管理关于自动构建知识图谱的项目; 所述数据 管理模块用于获取非结构化的数据, 并对数据进行处理以形成训练集文件和 预测集文件; 所述构建Schema模块用于图形化地构建知识图谱的Schema, 用于描述领域中实体与实 体之间的关系; 所述数据标注模块用于根据构建的Sc hema对训练集文件中的实体进行 标注; 所述模型训练模块用于利用标注后的文件和以及预先建立的规则集文件, 训练用于预 测实体间关系的服 务模型; 所述批量预测模块用于将预测集文件输入训练完成的服务模型, 执行预测任务, 得到 预测结果即实体 ‑关系‑实体的三元组数据;权 利 要 求 书 1/2 页 2 CN 114911893 A 2所述知识图谱模块用于将服务模型的预测结果转换为知识图谱, 并将知识图谱自动化 地添加到知识库中。 9.一种电子装置, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所 述计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求 1~7中 任一权利要求所述方法的指令 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程 序, 所述计算机程序被 计算机执 行时, 实现权利要求1~7中任一权利要求所述的方法。权 利 要 求 书 2/2 页 3 CN 114911893 A 3
专利 基于知识图谱的自动化构建知识库的方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:57:45
上传分享
举报
下载
原文档
(818.1 KB)
分享
友情链接
GB-T 20502-2006 膜组件及装置型号命名.pdf
DB31-T 1251-2020 社区公益服务项目招投标指南 上海市.pdf
信通院 大模型治理蓝皮报告 2023年 ——从规则走向实践.pdf
GB/T 40212-2021 工业机器人云服务平台分类及参考体系结构.pdf
湖南金盾安全 渗透测试与等级保护测评指标体系对应关系研究.pdf
GB-T 6420-2017 货运挂车系列型谱.pdf
GB-T 29072-2012 航天器研制技术流程编写规则.pdf
GB-T 29070-2012 无损检测 工业计算机层析成像 CT 检测 通用要求.pdf
DB43-T 1315-2023 森林城市评价指标 湖南省.pdf
中国电信 云网运营自智白皮书 2022.pdf
GB T 17902.1-2023 信息技术 安全技术 带附录的数字签名 第1部分:概述.pdf
GB-T 24162-2022 汽车用压缩天然气金属内胆纤维环缠绕气瓶定期检验与评定.pdf
GB-T 36377-2018 计量器具识别编码.pdf
GB-T 3954-2022 电工圆铝杆.pdf
GB-T 1032-2023 三相异步电动机试验方法.pdf
绿盟 2014工控系统的安全研究与实践报告.pdf
项目跟踪器.xltx
T-CAAMTB 66—2022 汽车电子助力制动系统总成耐久性能要求及台架试验方法.pdf
XF 979-2012 D类干粉灭火剂.pdf
GB/T 38825-2020 民用飞机复合材料制件铆接要求.pdf
交流群
-->
1
/
3
14
评价文档
赞助2元 点击下载(818.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。