说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210869916.5 (22)申请日 2022.07.22 (71)申请人 北京大学 地址 100091 北京市海淀区颐和园路5号 申请人 墨奇科技 (北京) 有限公司 (72)发明人 金鑫 刘譞哲 章梓立 马郓  陈卓 田昕晖 刘勤 汤林鹏  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 魏小薇 吴丽丽 (51)Int.Cl. G06F 16/2453(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 16/248(2019.01) (54)发明名称 数据查询方法、 装置、 系统、 设备和介质 (57)摘要 本公开提供了一种数据查询方法、 装置、 系 统、 设备和介质。 该方法包括: 获取目标终止条 件; 基于查询数据和Y个子数据集中的每一个子 数据集的相似度, 确定Y个子 数据集各自的排名, Y为大于1的正整数; 将Y个子数据集中的排名最 高的前Z个未处理过的子数据集作为当前子数据 集并对当前子数据集进行处理, 直至当前查询指 标中至少部分指标满足目标 终止条件, 将更新后 的中间结果作为查询结果; 其中, Z为小于Y的正 整数, 处理包括: 在当前子数据集所包括的样本 数据中, 确定与查询数据的相似度最高的至少一 个样本数据以更新中间结果, 基于更新后的中间 结果确定当前查询指标。 权利要求书5页 说明书23页 附图9页 CN 115237948 A 2022.10.25 CN 115237948 A 1.一种数据查询方法, 用于在数据集中查询与查询数据相似度最高的目标数量的样本 数据, 所述方法包括: 获取目标终止条件, 所述目标终止条件 包括目标准确率和/或目标时延; 基于查询数据和Y个子数据集中的每一个子数据集的相似度, 确定所述Y个子数据集各 自的排名, 其中, 所述Y个子数据集是根据所述数据集中的样本数据之间的相似度对所述样 本数据进 行划分得到的, 每一个所述子数据集包括所述数据集中与该子数据集对应的至少 一个样本数据, 并且Y为大于1的正整数; 将所述Y个子数据集中的排名最高的前Z个未处理过的子数据集作为当前子数据集并 对所述当前子数据集进行处理, 直至当前查询指标中至少 部分指标满足目标终止条件, 其 中, Z为小于 Y的正整数, 所述处 理包括: 在所述当前子数据集所包括的样本数据中, 确定与所述查询数据的相似度最高的至少 一个样本数据以更新中间结果, 更新后的中间结果中包括排名不低于所述当前子数据集的 子数据集所包括的样本数据中, 与所述查询数据的相似度最高的目标数量的候选数据; 以 及 基于更新后的中间结果确定当前查询指标, 所述当前查询指标包括准确率, 所述准确 率指示对更新后的中间结果中的候选数据在目标结果中所占比例的预测结果, 所述目标结 果为对所有所述子数据集都进行 所述处理后所得的更新后的中间结果; 将更新后的中间结果作为 查询结果。 2.根据权利要求1所述的方法, 其中, 基于更新后的中间结果确定所述当前查询 指标包 括: 确定更新后的中间结果中的至少一个候选数据的预测排名, 所述预测排名指示在所述 目标结果中, 对应的候选数据与所述 查询数据的相似度的排名的预测结果; 以及 基于预测排名的值不大于所述目标数量的候选数据的数量和所述目标数量, 确定所述 准确率。 3.根据权利要求2所述的方法, 其中, 所述Y个子数据集各自具有不重叠的对应的空间 范围, 每一个所述样本数据和所述查询数据各自具有对应的空间位置, 其中, 更新后的中间 结果中的每一个候选数据对应有 该候选数据在更新后的中间结果中的中间排名, 所述中间 排名是根据该候选数据与所述 查询数据的相似度确定的, 其中, 确定更新后的中间结果中的至少一个候选数据的预测排名, 包括: 在更新后的中间结果中确定目标候选数据, 对于所述目标候选数据, 执行以下操作, 直 至所述更新后的中间结果中所有的候选数据均 作为过目标候选数据或满足结束条件: 根据所述查询数据的空间位置、 所述目标候选数据的空间位置、 以及所述Y个子数据集 各自的空间范围对应的空间特 征, 确定比例因子; 以及 根据所述目标候选数据的中间排名和比例因子, 确定所述目标候选数据的预测排名, 其中, 所述结束条件包括所述目标候选数据的预测排名不大于所述目标数量且为所述 更新后的中间结果所包括的候选数据的预测排名中的最大值。 4.根据权利要求3所述的方法, 其中, 从更新后的中间结果中确定目标候选数据, 包括: 按照更新后的中间结果中候选数据的中间排名由低到 高或由高到低的顺序, 依次将更 新后的中间结果中各候选数据确定为目标候选数据;权 利 要 求 书 1/5 页 2 CN 115237948 A 2或者, 根据二分搜索法, 从更新后的中间结果中确定目标候选数据。 5.根据权利要求3或4所述的方法, 其中, 与所述目标候选数据对应的第一空间范围的 中心为所述查询数据的空间位置, 并且所述目标候选数据的空间位置位于所述第一空间范 围的边缘, 其中, 第二空间范围为排名不低于所述当前子数据集的至少一个候选子数据集对应的 空间范围和所述第一空间范围的交集, 其中, 根据所述查询数据的空间位置、 所述目标候选数据的空间位置、 以及所述Y个子 数据集各自的空间范围对应的空间特 征, 确定比例因子包括: 确定所述第一空间范围的体积; 确定所述第二空间范围的体积; 以及 将所述第一空间范围的体积和所述第二空间范围的体积的比值确定为比例因子 。 6.根据权利要求5所述的方法, 其中, 至少一个第 三空间范围中的每一个第 三空间范围 为排名高于所述当前子数据集的一个其他子数据集对应的空间范围和所述第一空间范围 的交集, 其中, 确定所述第二空间范围的体积包括: 确定所述至少一个第三空间范围各自的体积; 以及 基于所述第 一空间范围的体积与 所述至少一个第 三空间范围的体积总和的差值, 确定 所述第二空间范围的体积。 7.根据权利要求6所述的方法, 其中, 确定所述至少一个第三空间范围各自的体积包 括: 确定所述 查询数据的空间位置 到每一个所述第三空间范围的最短空间距离; 基于每一个所述第三空间范围对应的最短空间距离与所述查询数据的空间位置到所 述目标候选数据的空间位置之 间的空间距离的比值的反余弦值, 估计该第三空间范围的体 积。 8.根据权利要求5 ‑7任一项所述的方法, 其中, 所述第 一空间范围为以所述查询数据的 空间位置为球心, 以所述查询数据的空间位置和所述目标候选数据的空间位置之 间的空间 距离为半径的球。 9.根据权利要求1 ‑8任一项所述的方法, 其中, 所述数据集是通过将中间数据集中的中 间数据映射到单位球上而得到的, 其中, 所述数据集中的第一样本数据和第二样本数据在 所述单位球上 的球面距离指示所述中间数据集中与所述第一样本数据和所述第二样本数 据分别对应的第一中间数据和第二中间数据的内积。 10.根据权利要求1 ‑9任一项所述的方法, 其中, 在所述当前子数据集所包括的样本数 据中, 确定与所述 查询数据的相似度最高的至少一个样本数据以更新所述中间结果包括: 针对所述当前子数据集所包括的每一个样本数据, 响应于确定该样本数据与 所述查询 数据的相似度高于 当前的中间结果中的每一个候选数据与所述查询数据的相似度, 使用该 样本数据替换当前的中间结果中的与查询数据的相似度最低的候选数据。 11.根据权利要求1 ‑10中任一项所述的方法, 其中, 获取目标终止条件 包括: 接收所述目标准确率和/或所述目标时延, 所述目标准确率和/或所述目标时延是基于 用户输入的,权 利 要 求 书 2/5 页 3 CN 115237948 A 3

.PDF文档 专利 数据查询方法、装置、系统、设备和介质

文档预览
中文文档 38 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据查询方法、装置、系统、设备和介质 第 1 页 专利 数据查询方法、装置、系统、设备和介质 第 2 页 专利 数据查询方法、装置、系统、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:17:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。