说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210869916.5 (22)申请日 2022.07.22 (71)申请人 北京大学 地址 100091 北京市海淀区颐和园路5号 申请人 墨奇科技 (北京) 有限公司 (72)发明人 金鑫 刘譞哲 章梓立 马郓 陈卓 田昕晖 刘勤 汤林鹏 (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 魏小薇 吴丽丽 (51)Int.Cl. G06F 16/2453(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 16/248(2019.01) (54)发明名称 数据查询方法、 装置、 系统、 设备和介质 (57)摘要 本公开提供了一种数据查询方法、 装置、 系 统、 设备和介质。 该方法包括: 获取目标终止条 件; 基于查询数据和Y个子数据集中的每一个子 数据集的相似度, 确定Y个子 数据集各自的排名, Y为大于1的正整数; 将Y个子数据集中的排名最 高的前Z个未处理过的子数据集作为当前子数据 集并对当前子数据集进行处理, 直至当前查询指 标中至少部分指标满足目标 终止条件, 将更新后 的中间结果作为查询结果; 其中, Z为小于Y的正 整数, 处理包括: 在当前子数据集所包括的样本 数据中, 确定与查询数据的相似度最高的至少一 个样本数据以更新中间结果, 基于更新后的中间 结果确定当前查询指标。 权利要求书5页 说明书23页 附图9页 CN 115237948 A 2022.10.25 CN 115237948 A 1.一种数据查询方法, 用于在数据集中查询与查询数据相似度最高的目标数量的样本 数据, 所述方法包括: 获取目标终止条件, 所述目标终止条件 包括目标准确率和/或目标时延; 基于查询数据和Y个子数据集中的每一个子数据集的相似度, 确定所述Y个子数据集各 自的排名, 其中, 所述Y个子数据集是根据所述数据集中的样本数据之间的相似度对所述样 本数据进 行划分得到的, 每一个所述子数据集包括所述数据集中与该子数据集对应的至少 一个样本数据, 并且Y为大于1的正整数; 将所述Y个子数据集中的排名最高的前Z个未处理过的子数据集作为当前子数据集并 对所述当前子数据集进行处理, 直至当前查询指标中至少 部分指标满足目标终止条件, 其 中, Z为小于 Y的正整数, 所述处 理包括: 在所述当前子数据集所包括的样本数据中, 确定与所述查询数据的相似度最高的至少 一个样本数据以更新中间结果, 更新后的中间结果中包括排名不低于所述当前子数据集的 子数据集所包括的样本数据中, 与所述查询数据的相似度最高的目标数量的候选数据; 以 及 基于更新后的中间结果确定当前查询指标, 所述当前查询指标包括准确率, 所述准确 率指示对更新后的中间结果中的候选数据在目标结果中所占比例的预测结果, 所述目标结 果为对所有所述子数据集都进行 所述处理后所得的更新后的中间结果; 将更新后的中间结果作为 查询结果。 2.根据权利要求1所述的方法, 其中, 基于更新后的中间结果确定所述当前查询 指标包 括: 确定更新后的中间结果中的至少一个候选数据的预测排名, 所述预测排名指示在所述 目标结果中, 对应的候选数据与所述 查询数据的相似度的排名的预测结果; 以及 基于预测排名的值不大于所述目标数量的候选数据的数量和所述目标数量, 确定所述 准确率。 3.根据权利要求2所述的方法, 其中, 所述Y个子数据集各自具有不重叠的对应的空间 范围, 每一个所述样本数据和所述查询数据各自具有对应的空间位置, 其中, 更新后的中间 结果中的每一个候选数据对应有 该候选数据在更新后的中间结果中的中间排名, 所述中间 排名是根据该候选数据与所述 查询数据的相似度确定的, 其中, 确定更新后的中间结果中的至少一个候选数据的预测排名, 包括: 在更新后的中间结果中确定目标候选数据, 对于所述目标候选数据, 执行以下操作, 直 至所述更新后的中间结果中所有的候选数据均 作为过目标候选数据或满足结束条件: 根据所述查询数据的空间位置、 所述目标候选数据的空间位置、 以及所述Y个子数据集 各自的空间范围对应的空间特 征, 确定比例因子; 以及 根据所述目标候选数据的中间排名和比例因子, 确定所述目标候选数据的预测排名, 其中, 所述结束条件包括所述目标候选数据的预测排名不大于所述目标数量且为所述 更新后的中间结果所包括的候选数据的预测排名中的最大值。 4.根据权利要求3所述的方法, 其中, 从更新后的中间结果中确定目标候选数据, 包括: 按照更新后的中间结果中候选数据的中间排名由低到 高或由高到低的顺序, 依次将更 新后的中间结果中各候选数据确定为目标候选数据;权 利 要 求 书 1/5 页 2 CN 115237948 A 2或者, 根据二分搜索法, 从更新后的中间结果中确定目标候选数据。 5.根据权利要求3或4所述的方法, 其中, 与所述目标候选数据对应的第一空间范围的 中心为所述查询数据的空间位置, 并且所述目标候选数据的空间位置位于所述第一空间范 围的边缘, 其中, 第二空间范围为排名不低于所述当前子数据集的至少一个候选子数据集对应的 空间范围和所述第一空间范围的交集, 其中, 根据所述查询数据的空间位置、 所述目标候选数据的空间位置、 以及所述Y个子 数据集各自的空间范围对应的空间特 征, 确定比例因子包括: 确定所述第一空间范围的体积; 确定所述第二空间范围的体积; 以及 将所述第一空间范围的体积和所述第二空间范围的体积的比值确定为比例因子 。 6.根据权利要求5所述的方法, 其中, 至少一个第 三空间范围中的每一个第 三空间范围 为排名高于所述当前子数据集的一个其他子数据集对应的空间范围和所述第一空间范围 的交集, 其中, 确定所述第二空间范围的体积包括: 确定所述至少一个第三空间范围各自的体积; 以及 基于所述第 一空间范围的体积与 所述至少一个第 三空间范围的体积总和的差值, 确定 所述第二空间范围的体积。 7.根据权利要求6所述的方法, 其中, 确定所述至少一个第三空间范围各自的体积包 括: 确定所述 查询数据的空间位置 到每一个所述第三空间范围的最短空间距离; 基于每一个所述第三空间范围对应的最短空间距离与所述查询数据的空间位置到所 述目标候选数据的空间位置之 间的空间距离的比值的反余弦值, 估计该第三空间范围的体 积。 8.根据权利要求5 ‑7任一项所述的方法, 其中, 所述第 一空间范围为以所述查询数据的 空间位置为球心, 以所述查询数据的空间位置和所述目标候选数据的空间位置之 间的空间 距离为半径的球。 9.根据权利要求1 ‑8任一项所述的方法, 其中, 所述数据集是通过将中间数据集中的中 间数据映射到单位球上而得到的, 其中, 所述数据集中的第一样本数据和第二样本数据在 所述单位球上 的球面距离指示所述中间数据集中与所述第一样本数据和所述第二样本数 据分别对应的第一中间数据和第二中间数据的内积。 10.根据权利要求1 ‑9任一项所述的方法, 其中, 在所述当前子数据集所包括的样本数 据中, 确定与所述 查询数据的相似度最高的至少一个样本数据以更新所述中间结果包括: 针对所述当前子数据集所包括的每一个样本数据, 响应于确定该样本数据与 所述查询 数据的相似度高于 当前的中间结果中的每一个候选数据与所述查询数据的相似度, 使用该 样本数据替换当前的中间结果中的与查询数据的相似度最低的候选数据。 11.根据权利要求1 ‑10中任一项所述的方法, 其中, 获取目标终止条件 包括: 接收所述目标准确率和/或所述目标时延, 所述目标准确率和/或所述目标时延是基于 用户输入的,权 利 要 求 书 2/5 页 3 CN 115237948 A 3
专利 数据查询方法、装置、系统、设备和介质
文档预览
中文文档
38 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 17:17:53
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
OWASP 面向CISO应用安全指南 英文版 2013年第一版.pdf
T-SEESA 013—2022 零碳数据中心创建与评价技术规范.pdf
等保二级-安全管理-安全管理制度.doc
中国移动研究院 5G基站节能技术白皮书 2020.pdf
T-CSAE 119—2019 绿色设计产品评价技术规范 纯电动乘用车.pdf
红蓝对抗-蓝队作战手册.pdf
DB62-T 2779-2021 松落针病综合防治技术规程 甘肃省.pdf
GB-T 14272-2021 羽绒服装.pdf
GB-T 30297-2013 氯碱工业用全氟离子交换膜 应用规范.pdf
GB-T 20283-2020 信息安全技术 保护轮廓和安全目标的产生指南.pdf
北京网络安全大会 中小企业如何做好工业互联网安全防护.pdf
SY-T 7650-2021 盐穴储气库造腔井下作业规范.pdf
SN-T 1549-2011 进出口煤炭外来杂物控制与监管技术规范.pdf
T-ZAWS 002—2023 弧焊设备 物联控制终端 模组 技术要求.pdf
GB-T 33018.3-2016 炭素企业节能技术规范 第3部分:机械加工.pdf
DL-T 884-2019 火电厂金相检验与评定技术导则.pdf
T-CI 292—2024 医疗健康大数据安全要求.pdf
DB21-T 1799.3—2019 信息技术 信息服务管理规范 第3部分:IT系统运维 辽宁省.pdf
专利 一种用于高功率密度机柜的泵驱双环路热管组合散热系统.PDF
alienvault 业内人士指南之应急响应 insiders guide incident response 英文版.pdf
交流群
-->
1
/
3
38
评价文档
赞助2元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。