说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210381595.4 (22)申请日 2022.04.13 (71)申请人 浙江大学 地址 310012 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 刘晓瑛 王宏伟  (74)专利代理 机构 北京市广友专利事务所有限 责任公司 1 1237 专利代理师 张仲波 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于知识图谱的多价值链数据管理辅助决 策模型构建方法 (57)摘要 本发明涉及知识图谱构建技术领域, 特别是 指一种基于知识 图谱的多价值链数据管理辅助 决策模型构建方法, 方法包括: 对企业各业务系 统中存储的原始运维文本进行结构化抽取, 得到 数据集; 将数据集划分为初始训练文本集和初始 测试文本集, 对初始训练文本集以及初始测试文 本集进行预处理; 对预处理后的初始训练文本集 进行文本向量化, 得到训练文本集, 将训练文本 集和测试文本集数值化; 基于训练文本集, 对初 始实体抽取模型以及初始关系抽取模型进行训 练; 根据训练完毕的实体抽取模 型和关系抽取模 型, 对测试文本集进行实体类别抽取以及关系类 别抽取; 将抽取得到的知识构建为知识图谱。 采 用本发明, 实现知识图谱的可视化展示, 实现快 速响应。 权利要求书3页 说明书18页 附图6页 CN 114911945 A 2022.08.16 CN 114911945 A 1.一种基于知识图谱的多价值链数据管理辅助决策模型构建方法, 其特征在于, 所述 方法包括: S1、 对企业各业务系统中存储的原始运维文本进行结构化抽取, 将抽取出的自由长文 本类型字段制作成文本数据 挖掘的数据集; S2、 将所述数据集划分为初始训练文本集和初始测试文本集, 对所述初始训练文本集 进行预处理, 得到预 处理后的初始训练文本集, 对 所述初始测试文本集进 行预处理, 得到测 试文本集; S3、 对预处理后的初始训练文本集进行文本向量化, 提取文本的特征, 得到训练文本 集, 将所述训练文本集和所述测试文本集数值 化; S4、 基于所述训练文本集, 对初始实体抽取模型以及初始关系抽取模型进行训练, 得到 训练完毕的实体抽取模型和关系抽取模型; S5、 根据训练完毕的实体抽取模型, 对所述测试文本集进行实体类别抽取; 根据训练完 毕的关系抽取模型, 对所述测试文本集进行关系类别抽取; S6、 将抽取 得到的知识构建为知识图谱, 将所述知识图谱 存储到数据库中。 2.根据权利要求1所述的方法, 其特征在于, 所述S2中的对所述初始训练文本集进行预 处理, 包括: 对所述初始训练文本集进行中文分词处 理以及停用词过 滤处理; 所述S2中的对所述初始测试文本集进行 预处理, 包括: 对所述初始测试文本集进行中文分词处 理以及停用词过 滤处理; 其中, 所述中文分词处 理以及停用词过 滤处理包括: 分别基于正向和逆向的最大匹配算法对待分词 文本进行切分, 采用大颗粒度词语数目 最大化、 非词典词语和单字词语数目最小化的原则, 确定分词结果; 其中, 所述待分词文本 为初始训练文本集或初始测试文本集; 基于预先构建的常用中文停用词库, 剔除所述分词结果中的噪声词。 3.根据权利要求1所述的方法, 其特征在于, 所述S3 中的对预处理后的初始训练文本集 进行文本向量 化, 包括: 基于训练完毕的Word2Vec词向量化模型, 得到预处理后的初始训练文本集的目标中心 词, 完成文本向量 化。 4.根据权利 要求3所述的方法, 其特征在于, 所述Word2Vec词向量化模型的训练过程包 括: 构建初始Word2Vec词向量化模型, 所述初始Word2Vec词向量化模型的输入层变量定义 为中心词前后各m个词语的上下文窗口组成的词序列, 所述词序列表示为x(c‑m),...,x(c‑1), x(c),x(c+1),...,x(c+m), 所述初始Word2V ec词向量化模型的输出向量定义为多个预测词语分 别对应的概率 其中, 词序列x(c‑m),...,x(c‑1),x(c),x(c+1),...,x(c+m)均为独热编码向量, c 表示窗口规模; 定义损失函数为交叉熵损失函数, 如下公式(1): 权 利 要 求 书 1/3 页 2 CN 114911945 A 2其中, y表示目标向量, j表示目标向量分布数量, |V|表示分布空间; 基于所述交叉熵损失函数, 采用随机梯度下降法更新初始Word2Vec词向量化模型中的 参数, 得到训练完毕的W ord2Vec词向量 化模型。 5.根据权利 要求1所述的方法, 其特征在于, 所述实体抽取模型为Bi ‑LSTM‑CRF模型, 所 述Bi‑LSTM‑CRF模型包括Bi ‑LSTM子模型以及CRF子模型; 所述Bi‑LSTM子模型用于抽取文本的前向特 征以及后向特 征; 所述CRF子模型用于预测标注序列的全局标签, 输出一系列标注序列的联合 概率分布。 6.根据权利要求5所述的方法, 其特 征在于, 所述Bi ‑LSTM子模型的训练过程包括: 根据下述公式(2)对Bi ‑LSTM子模型进行训练; 其中, tk表示词语序列的第k个词, ΘLSTM表示的是两个反向的LSTM层, Θx表示的是输入 词向量, Θs表示的是Bi ‑LSTM模型训练过程中的S oftmax分类器, p表示概率, 在向前学习的 过程中, 用给定前k ‑1个词语序列来预测第k个词语, 在后向学习的过程中, 用第k个词语之 后的N‑k个词语序列来对第k个词语进行 预测。 7.根据权利要求1所述的方法, 其特 征在于, 所述关系抽取模型为卷积神经网络; 所述根据训练完毕的关系抽取模型, 对所述测试文本集进行关系类别抽取, 包括: 采用卷积神经网络对多价值链实体之间的关系 进行抽取, 所述卷积神经网络包括输入 层、 卷积层、 池化层以及全连接层; 所述输入层的输入形式定义 为如下述公式(3); 其中, n表示输入句子的字长, vx表示输入句子中的第x个字向量, 符号表示字与字之 间的连接关系; 所述卷积层的卷积核定义为一个窗口大小等于h ×k的卷积核w∈Rh*k, 其中, R表示数据 空间, h和k表示数据空间的维度; 通过卷积层进行 卷积计算后, 句中第i个字的语义特 征值ci表示为如下式(4)的形式: ci=f(w·vi~i+h‑1+bias)……(4) 其中, bias表示偏移参数, f表示激励函数, w表示卷积核, vi~i+h‑1表示输入句子中的第i 个到第i+h ‑1个字向量; 通过卷积计算, 句子v1~n转换为特 征映射c如下式(5)所示: c=[c1,c2,...,cn‑h‑1]……(5) 通过池化层进行计算, 将特 征映射转化为c=max(c); 通过全连接层, 将转 化后的特 征映射进行关系分类和输出。 8.一种基于知识图谱的多价值链数据管理辅助决策模型构建装置, 其特征在于, 所述 装置包括: 提取模块, 用于对企业各业务系统中存储的原始运维文本进行结构化抽取, 将抽取出 的自由长文本类型字段制作成文本数据 挖掘的数据集;权 利 要 求 书 2/3 页 3 CN 114911945 A 3

.PDF文档 专利 基于知识图谱的多价值链数据管理辅助决策模型构建方法

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的多价值链数据管理辅助决策模型构建方法 第 1 页 专利 基于知识图谱的多价值链数据管理辅助决策模型构建方法 第 2 页 专利 基于知识图谱的多价值链数据管理辅助决策模型构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。