(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210379685.X
(22)申请日 2022.04.12
(65)同一申请的已公布的文献号
申请公布号 CN 114491084 A
(43)申请公布日 2022.05.13
(73)专利权人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 余雯
(74)专利代理 机构 深圳市精英专利事务所
44242
专利代理师 曹祥波
(51)Int.Cl.
G06F 16/36(2019.01)G06F 16/35(2019.01)
G06F 16/31(2019.01)
(56)对比文件
CN 110414987 A,2019.1 1.05
审查员 范鹏
(54)发明名称
基于自编码器的关系网络信息挖掘方法、 装
置及设备
(57)摘要
本发明涉及大数据及人工智能技术, 提供了
基于自编码器的关系网络信息挖掘方法、 装置、
设备及介质, 基于初始数据集先后提取出第一关
系维度初始数据集、 第二关系维度初始数据集和
第三关系维度初始数据集 以先后对初始知识图
谱进行三次更新得到第三更新知识图谱, 之后获
取与所述第三更新知识 图谱相应的用户节点矩
阵和邻接矩阵, 将所述用户节 点矩阵和所述邻接
矩阵输入至预先训练的自编码器得到重构邻接
矩阵, 根据所述重构邻接矩阵对 所述第三更新知
识图谱进行更新得到第四更新知识图谱。 实现了
基于初始数据集挖掘出更多的节 点关系, 而且还
通过自编码器进一步补充知识图谱中节点关系,
所得到的知识图谱信息更完整, 知识图谱准确度
更高。
权利要求书3页 说明书17页 附图3页
CN 114491084 B
2022.07.22
CN 114491084 B
1.一种基于自编码器的关系网络信息挖掘方法, 其特 征在于, 包括:
响应于知识图谱更新指令, 获取与所述知识图谱更新指令相应的初始数据集, 并获取
初始知识图谱;
获取所述初始数据集的第 一关系维度初始数据集, 通过对所述第 一关系维度初始数据
集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新, 得到第一更新知识图谱;
获取所述初始数据集的第 二关系维度初始数据集, 通过对所述第 二关系维度初始数据
集提取知识图谱信息以对所述第一更新知识图谱进行知识图谱更新, 得到第二更新知识图
谱;
获取所述初始数据集的第 三关系维度初始数据集, 通过对所述第 三关系维度初始数据
集提取知识图谱信息以对所述第二更新知识图谱进行知识图谱更新, 得到第三更新知识图
谱; 以及
获取所述第 三更新知识图谱, 并获取与 所述第三更新知识图谱相应的用户节点矩阵和
邻接矩阵, 将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接
矩阵, 根据所述重构邻接矩阵对所述第三更新知识图谱进行 更新得到第四更新知识图谱;
其中, 当获取了所述第一更新知识图谱后, 存储形成包括 【node: 用户唯一识别码、 家庭
编号、 工作点】 , 【edge: 同事、 家庭】 的关系网络; no de表示知识图谱 中的用户节点, edge表
示用户节点之间的节点关系;
其中, 通过第 一关系维度数据获取策略从所述初始数据集中每一条初始用户数据均进
行数据特征维度筛选, 得到第一关系维度初始数据; 其中, 所述第一关系维度数据获取策略
中设置了第一关系维度初始数据中所具体包括的字段名称有寿险保单信息、 健康险保单信
息、 Wi‑Fi联机记录、 设备使用记录、 客户基本信息、 主副卡信息、 转账信息;
通过第二关系维度数据获取策略从所述初始数据集中每一条初始用户数据均进行数
据特征维度筛选, 得到第二关系维度初始数据; 其中, 所述第二关系维度数据获取策略中设
置了第二关系维度初始数据中所具体包括的字段名称有产品基本信息、 产品购买次数、 产
品购买金额;
通过第三关系维度数据获取策略可以从初始数据集中每一条初始用户数据均进行数
据特征维度筛选, 得到第三关系维度初始数据; 其中, 所述第三关系维度数据获取策略中设
置了第三关系维度初始数据中所具体包括的字段名称有代理人客户名单、 客户登录代理
人。
2.根据权利要求1所述的基于自编码器的关系网络信 息挖掘方法, 其特征在于, 所述通
过对所述第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图
谱更新, 得到第一更新知识图谱, 包括:
将所述初始数据集的第 一关系维度初始数据集进行数据 预处理、 知识图谱节点映射和
节点关系抽取以对所述初始知识图谱进行知识图谱更新, 得到第一更新知识图谱。
3.根据权利要求2所述的基于自编码器的关系网络信 息挖掘方法, 其特征在于, 所述将
所述初始数据集的第一关系维度初始数据集进 行数据预处理、 知识图谱节点映射和节点关
系抽取以对所述初始知识图谱进行知识图谱更新, 得到第一更新知识图谱, 包括:
根据预设的第 一无效数据筛选策略获取所述第 一关系维度初始数据集中的无效数据,
将所筛选的无效数据从所述第一关系维度初始数据集中进行删除, 得到第一筛选后数据权 利 要 求 书 1/3 页
2
CN 114491084 B
2集;
将所述第一筛选后数据集中根据预设的第 一数据分组策略进行分组, 得到第 一分组后
数据集;
根据预设的第二无效数据筛选策略获取所述第一分组后数据集中每一数据分组中的
无效数据, 将每一数据分组中的无效数据分别进行删除得到第二分组后数据集;
若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段
取值满足第一预设条件, 将对应数据分组中各用户数据的第一节点属性赋值为所述第一预
设字段名称的字段取值, 并将对应数据分组中各用户数据之间的节点关系设置为预设第一
类型关系, 以更新所述初始知识图谱;
若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段
取值不满足第一预设条件, 获取对应数据分组 组成目标 数据分组集;
将所述目标数据分组集中用户数据根据预设的第 二数据分组策略进行分组, 得到与 所
述目标数据分组集相应的分组后数据集;
将所述分组后数据集各数据分组的第一节点属性赋值为所述第二数据分组策略对应
筛选字段名称的字段取值分类名称, 并将所述分组后数据集各数据分组中各用户数据之间
的节点关系设置为预设第一类型关系, 以更新所述初始知识图谱得到第一更新知识图谱。
4.根据权利要求3所述的基于自编码器的关系网络信 息挖掘方法, 其特征在于, 所述将
所述第一筛选后数据集中根据预设的第一数据分组策略进行分组, 得到第一分组后数据
集, 包括:
将所述第一筛选后数据集中满足第一预设字段名称的字段取值之间文本近似度超出
预设相似度阈值的数据划分至同一分组, 得到第一分组后数据集。
5.根据权利要求3所述的基于自编码器的关系网络信 息挖掘方法, 其特征在于, 所述将
所述第一筛选后数据集中根据预设的第一数据分组策略进行分组, 得到第一分组后数据
集, 包括:
将所述第一筛选后数据集根据用户数据的第一预设字段名称的字段取值进行数据聚
类, 得到第一分组后数据集。
6.根据权利要求3所述的基于自编码器的关系网络信 息挖掘方法, 其特征在于, 所述若
确定所述第二分组后数据集有数据分组中用户数据相 应第一预设字段名称的字段取值满
足第一预设条件, 将对应数据分组中各用户数据的第一节点属性赋值为所述第一预设字段
名称的字段 取值, 包括:
若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段
取值满足第一预设条件, 获取各数据分组中在第一预设字段名称的字段取值具有最少字符
数的取值以对各 数据分组在第一节点属性的赋值。
7.根据权利要求3所述的基于自编码器的关系网络信 息挖掘方法, 其特征在于, 所述将
所述分组后数据集各数据分组的第一节点属 性赋值为所述第二数据分组策略对应筛选字
段名称的字段取值分类名称, 并将所述分组后数据集各数据分组中各用户数据之 间的节点
关系设置为预设第一类型关系, 以更新所述初始知识图谱得到第一更新知识图谱之后, 还
包括:
将所述第一更新知识图谱 存储至图数据库。权 利 要 求 书 2/3 页
3
CN 114491084 B
3
专利 基于自编码器的关系网络信息挖掘方法、装置及设备
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:57:57上传分享