(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210381595.4
(22)申请日 2022.04.13
(71)申请人 浙江大学
地址 310012 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 刘晓瑛 王宏伟
(74)专利代理 机构 北京市广友专利事务所有限
责任公司 1 1237
专利代理师 张仲波
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于知识图谱的多价值链数据管理辅助决
策模型构建方法
(57)摘要
本发明涉及知识图谱构建技术领域, 特别是
指一种基于知识 图谱的多价值链数据管理辅助
决策模型构建方法, 方法包括: 对企业各业务系
统中存储的原始运维文本进行结构化抽取, 得到
数据集; 将数据集划分为初始训练文本集和初始
测试文本集, 对初始训练文本集以及初始测试文
本集进行预处理; 对预处理后的初始训练文本集
进行文本向量化, 得到训练文本集, 将训练文本
集和测试文本集数值化; 基于训练文本集, 对初
始实体抽取模型以及初始关系抽取模型进行训
练; 根据训练完毕的实体抽取模 型和关系抽取模
型, 对测试文本集进行实体类别抽取以及关系类
别抽取; 将抽取得到的知识构建为知识图谱。 采
用本发明, 实现知识图谱的可视化展示, 实现快
速响应。
权利要求书3页 说明书18页 附图6页
CN 114911945 A
2022.08.16
CN 114911945 A
1.一种基于知识图谱的多价值链数据管理辅助决策模型构建方法, 其特征在于, 所述
方法包括:
S1、 对企业各业务系统中存储的原始运维文本进行结构化抽取, 将抽取出的自由长文
本类型字段制作成文本数据 挖掘的数据集;
S2、 将所述数据集划分为初始训练文本集和初始测试文本集, 对所述初始训练文本集
进行预处理, 得到预 处理后的初始训练文本集, 对 所述初始测试文本集进 行预处理, 得到测
试文本集;
S3、 对预处理后的初始训练文本集进行文本向量化, 提取文本的特征, 得到训练文本
集, 将所述训练文本集和所述测试文本集数值 化;
S4、 基于所述训练文本集, 对初始实体抽取模型以及初始关系抽取模型进行训练, 得到
训练完毕的实体抽取模型和关系抽取模型;
S5、 根据训练完毕的实体抽取模型, 对所述测试文本集进行实体类别抽取; 根据训练完
毕的关系抽取模型, 对所述测试文本集进行关系类别抽取;
S6、 将抽取 得到的知识构建为知识图谱, 将所述知识图谱 存储到数据库中。
2.根据权利要求1所述的方法, 其特征在于, 所述S2中的对所述初始训练文本集进行预
处理, 包括:
对所述初始训练文本集进行中文分词处 理以及停用词过 滤处理;
所述S2中的对所述初始测试文本集进行 预处理, 包括:
对所述初始测试文本集进行中文分词处 理以及停用词过 滤处理;
其中, 所述中文分词处 理以及停用词过 滤处理包括:
分别基于正向和逆向的最大匹配算法对待分词 文本进行切分, 采用大颗粒度词语数目
最大化、 非词典词语和单字词语数目最小化的原则, 确定分词结果; 其中, 所述待分词文本
为初始训练文本集或初始测试文本集;
基于预先构建的常用中文停用词库, 剔除所述分词结果中的噪声词。
3.根据权利要求1所述的方法, 其特征在于, 所述S3 中的对预处理后的初始训练文本集
进行文本向量 化, 包括:
基于训练完毕的Word2Vec词向量化模型, 得到预处理后的初始训练文本集的目标中心
词, 完成文本向量 化。
4.根据权利 要求3所述的方法, 其特征在于, 所述Word2Vec词向量化模型的训练过程包
括:
构建初始Word2Vec词向量化模型, 所述初始Word2Vec词向量化模型的输入层变量定义
为中心词前后各m个词语的上下文窗口组成的词序列, 所述词序列表示为x(c‑m),...,x(c‑1),
x(c),x(c+1),...,x(c+m), 所述初始Word2V ec词向量化模型的输出向量定义为多个预测词语分
别对应的概率
其中, 词序列x(c‑m),...,x(c‑1),x(c),x(c+1),...,x(c+m)均为独热编码向量, c
表示窗口规模;
定义损失函数为交叉熵损失函数, 如下公式(1):
权 利 要 求 书 1/3 页
2
CN 114911945 A
2其中, y表示目标向量, j表示目标向量分布数量, |V|表示分布空间;
基于所述交叉熵损失函数, 采用随机梯度下降法更新初始Word2Vec词向量化模型中的
参数, 得到训练完毕的W ord2Vec词向量 化模型。
5.根据权利 要求1所述的方法, 其特征在于, 所述实体抽取模型为Bi ‑LSTM‑CRF模型, 所
述Bi‑LSTM‑CRF模型包括Bi ‑LSTM子模型以及CRF子模型;
所述Bi‑LSTM子模型用于抽取文本的前向特 征以及后向特 征;
所述CRF子模型用于预测标注序列的全局标签, 输出一系列标注序列的联合 概率分布。
6.根据权利要求5所述的方法, 其特 征在于, 所述Bi ‑LSTM子模型的训练过程包括:
根据下述公式(2)对Bi ‑LSTM子模型进行训练;
其中, tk表示词语序列的第k个词, ΘLSTM表示的是两个反向的LSTM层, Θx表示的是输入
词向量, Θs表示的是Bi ‑LSTM模型训练过程中的S oftmax分类器, p表示概率, 在向前学习的
过程中, 用给定前k ‑1个词语序列来预测第k个词语, 在后向学习的过程中, 用第k个词语之
后的N‑k个词语序列来对第k个词语进行 预测。
7.根据权利要求1所述的方法, 其特 征在于, 所述关系抽取模型为卷积神经网络;
所述根据训练完毕的关系抽取模型, 对所述测试文本集进行关系类别抽取, 包括:
采用卷积神经网络对多价值链实体之间的关系 进行抽取, 所述卷积神经网络包括输入
层、 卷积层、 池化层以及全连接层;
所述输入层的输入形式定义 为如下述公式(3);
其中, n表示输入句子的字长, vx表示输入句子中的第x个字向量,
符号表示字与字之
间的连接关系;
所述卷积层的卷积核定义为一个窗口大小等于h ×k的卷积核w∈Rh*k, 其中, R表示数据
空间, h和k表示数据空间的维度;
通过卷积层进行 卷积计算后, 句中第i个字的语义特 征值ci表示为如下式(4)的形式:
ci=f(w·vi~i+h‑1+bias)……(4)
其中, bias表示偏移参数, f表示激励函数, w表示卷积核, vi~i+h‑1表示输入句子中的第i
个到第i+h ‑1个字向量;
通过卷积计算, 句子v1~n转换为特 征映射c如下式(5)所示:
c=[c1,c2,...,cn‑h‑1]……(5)
通过池化层进行计算, 将特 征映射转化为c=max(c);
通过全连接层, 将转 化后的特 征映射进行关系分类和输出。
8.一种基于知识图谱的多价值链数据管理辅助决策模型构建装置, 其特征在于, 所述
装置包括:
提取模块, 用于对企业各业务系统中存储的原始运维文本进行结构化抽取, 将抽取出
的自由长文本类型字段制作成文本数据 挖掘的数据集;权 利 要 求 书 2/3 页
3
CN 114911945 A
3
专利 基于知识图谱的多价值链数据管理辅助决策模型构建方法
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:57:37上传分享