(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210197317.3
(22)申请日 2022.03.02
(65)同一申请的已公布的文献号
申请公布号 CN 114282073 A
(43)申请公布日 2022.04.05
(73)专利权人 支付宝 (杭州) 信息技 术有限公司
地址 310013 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 张达
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
专利代理师 吴肖肖
(51)Int.Cl.
G06F 16/901(2019.01)
G06F 16/36(2019.01)
(56)对比文件
CN 114077680 A,202 2.02.22
CN 111241195 A,2020.0 6.05CN 109918018 A,2019.0 6.21
CN 113721862 A,2021.1 1.30
CN 103186668 A,2013.07.0 3
CN 109446362 A,2019.0 3.08
WO 2016090541 A1,2016.0 6.16
CN 113254683 A,2021.08.13
CN 114116795 A,202 2.03.01
CN 109739 939 A,2019.0 5.10
CN 114003775 A,202 2.02.01
彭成. 《大规模知识图谱的分布式存 储与检
索技术研究》 . 《中国优秀硕士学位 论文全文数据
库 (信息科技 辑)》 .2020,
房栋.高校知识图谱的构建与数字资源分配
新融合. 《中国信息技 术教育》 .2018,第164-167
页.
Yachen Tang 等. 《Graph Database Based
Knowledge Graph Stora ge and Query for
Power Equipment Mana gement》 . 《IE EE》 .2020,
审查员 刘莹
(54)发明名称
数据存储方法及装置、 数据读取方法及装置
(57)摘要
本说明书实施例提供数据存储 方法及装置、
数据读取方法及装置, 其中所述数据存储方法应
用于知识图谱平台, 包括: 拆分目标知识图谱数
据, 确定至少两个待存储目标子图数据; 其中, 所
述目标知识 图谱数据包括目标实体节点 以及至
少一个与所述目标实体节点相关联的边, 各个所
述待存储目标子图数据包括所述目标实体节点
以及至少一个目标属性的边; 将所述至少两个待
存储目标子图数据按照边的属性存储至至少两
个连续数据块, 其中, 前一数据块中存储的待存
储目标子图数据的末尾实体标识与后一数据块
中存储的待存储目标子图数据的初始实体标识
相同, 可实现对 数据量大的图谱 数据完整地按顺
序存储, 且提高存 储效率。
权利要求书3页 说明书17页 附图7页
CN 114282073 B
2022.07.15
CN 114282073 B
1.一种数据存 储方法, 应用于知识图谱平台, 包括:
拆分目标知识图谱数据, 确定 至少两个待存 储目标子图数据;
其中, 所述目标知识图谱数据包括目标实体节点以及至少一个与所述目标实体节点相
关联的边, 各个所述待存储目标子图数据包括所述目标实体节点以及至少一个目标属性的
边;
将所述至少两个待存储目标子图数据按照边的属性存储至至少两个连续数据块, 其
中, 前一数据块中存储的待存储目标子图数据的末尾实体标识与后一数据块中存储的待存
储目标子图数据的初始实体标识相同。
2.根据权利要求1所述的数据存储方法, 所述将所述至少两个待存储目标子图数据按
照边的属性存 储至至少两个连续数据块之后, 还 包括:
记录每个数据块的索引信息, 并基于所述每个数据块中的索引信息, 确定索引数组信
息, 其中, 所述索引信息包括所述每个数据块中存储的待存储目标子图数据的初始实体标
识、 末尾实体标识、 与末尾实体标识相关联的边属性条件。
3.根据权利要求2所述的数据存储方法, 所述基于所述每个数据块中的索引信 息, 确定
索引数组信息, 包括:
确定每个数据块中待存 储目标子图数据的初始实体标识、 末尾实体标识;
在确定两个连续数据块中相邻的末尾实体标识与初始实体标识相同的情况下, 对所述
两个连续数据块中的索引信息进 行处理, 确定索引数组信息, 其中, 所述索引数组信息中的
实体标识基于存 储顺序排列。
4.根据权利要求1所述的数据存储方法, 所述拆分所述目标知识图谱数据, 确定至少两
个待存储目标子图数据, 包括:
确定拆分参数, 并基于所述拆分参数拆分所述目标知识图谱数据, 确定至少两个待存
储目标子图数据;
相应地, 所述拆分目标知识图谱数据之前, 还 包括:
对接收到的待处理数据进行处理, 确定所述待处理数据的目标实体数据、 以及与所述
目标实体数据相关联的关系数据;
基于所述目标实体数据以及所述关系数据确定所述待处理数据的数据 结构, 并基于所
述数据结构 构建目标知识图谱数据。
5.根据权利要求4所述的数据存储方法, 所述将所述至少两个待存储目标子图数据按
照边的属性存 储至至少两个连续数据块, 包括:
确定所述待存储目标子图数据中边的方向, 并基于所述边的方向对所述待存储目标子
图数据中的边进行分类, 确定至少一个边的类型, 其中, 所述边的方向包括出边方向和入边
方向, 所述出边方向为由目标实体节点指向其他实体节点的方向, 所述入边方向为由其他
实体节点指向目标实体节点的方向;
基于所述至少一个边的类型将所述至少两个待存储目标子图数据存储至至少两个连
续数据块。
6.根据权利要求1所述的数据存 储方法, 所述数据块还 包括缓冲区,
相应地, 所述将所述至少两个待存储目标子图数据按照边的属性存储至至少两个连续
数据块, 包括:权 利 要 求 书 1/3 页
2
CN 114282073 B
2在所述待存储目标子图数据中确定无法存储至至少两个连续数据块的剩余数据, 将所
述剩余数据存 储至所述至少两个连续数据块的末尾数据块的缓冲区。
7.一种数据读取 方法, 应用于知识图谱平台, 包括:
接收针对目标数据的数据读取请求, 基于所述数据读取请求在索引数组信 息中确定目
标存储位置;
其中, 所述索引数组信息基于每个数据块中的索引信息而确定, 并包括每个数据块中
存储的图谱数据的初始实体标识、 末尾实体标识、 与末尾实体标识相关联的边属性条件;
基于所述目标存 储位置在至少两个连续数据块中确定目标 数据块;
基于所述数据读取请求中携带的边属性条件从所述目标 数据块中读取 所述目标 数据。
8.根据权利要求7所述的数据读取方法, 所述接收针对目标数据的数据读取请求, 基于
所述数据读取请求在所述索引数组信息中确定目标存 储位置, 包括:
接收针对目标数据的数据读取请求, 其中, 所述数据读取请求中携带有目标数据的实
体标识、 数据边类型;
基于所述目标数据的实体标识、 数据边类型在所述索引数组信息中进行查找, 确定所
述目标数据对应的目标存 储位置。
9.根据权利要求7所述的数据读取方法, 所述数据读取请求在索引数组信息中确定目
标存储位置之后, 还 包括:
基于负载均衡条件 对所述索引数组信息进行分区处 理, 确定至少两个数据分区;
相应地, 所述确定 至少两个数据分区之后, 还 包括:
接收针对目标数据的数据分区读取请求, 基于所述数据分区读取请求中携带的分区索
引信息确定目标 数据分区;
基于所述数据分区读取请求中携带的实体标识从所述目标数据分区中读取所述目标
数据。
10.一种数据存 储装置, 应用于知识图谱平台, 包括:
图谱拆分模块, 被配置为拆分目标知识图谱数据, 确定至少两个待存储目标子图数据,
其中, 所述目标知识图谱数据包括目标实体节点以及至少一个与所述目标实体节点相关联
的边, 各个所述待存 储目标子图数据包括所述目标实体节点以及至少一个目标属性的边;
数据存储模块, 被配置为将所述至少两个待存储目标子图数据按照 边的属性存储至至
少两个连续数据块, 其中, 前一数据块中存储的待存储目标子图数据的末尾实体标识与后
一数据块中存 储的待存 储目标子图数据的初始实体标识相同。
11.一种数据读取装置, 应用于知识图谱平台, 包括:
存储位置确定模块, 被配置为接收针对目标数据的数据读取请求, 基于所述数据读取
请求在索引数组信息中确定目标存 储位置;
其中, 所述索引数组信息基于每个数据块中的索引信息而确定, 并包括每个数据块中
存储的图谱数据的初始实体标识、 末尾实体标识、 与末尾实体标识相关联的边属性条件;
数据读取模块, 被配置为基于所述目标存储位置在至少两个连续数据块中确定目标数
据块;
基于所述数据读取请求中携带的边属性条件从所述目标 数据块中读取 所述目标 数据。
12.一种计算设备, 包括:权 利 要 求 书 2/3 页
3
CN 114282073 B
3
专利 数据存储方法及装置、数据读取方法及装置
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:58:45上传分享