说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211041998.0 (22)申请日 2022.08.29 (71)申请人 南京中孚信息技 术有限公司 地址 210000 江苏省南京市浦口区江浦街 道仁山路1号园区2号楼办公室东侧 ER202室 (72)发明人 徐思航 赵鑫 陆佳  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 王思楠 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/906(2019.01) (54)发明名称 数据检索方法、 装置、 电子设备及存 储介质 (57)摘要 本申请提供一种数据检索方法、 装置、 电子 设备及存储介质, 所述方法包括: 根据目标向量 系数, 确定各原始向量到各所述目标量化中心的 距离, 其中, 所述目标向量系数基于所述原始向 量的维数以及预设的优化级别确定的; 根据各原 始向量到 各所述目标量化中心的距离, 确定各原 始向量对应的目标向量, 并将所述目标向量作为 所述原始数据对应的向量。 通过根据目标向量系 数, 确定各原始向量到各所述目标量化中心的距 离, 可以使得计算原始向量到各目标量化中心距 离时使用一个通用的向量系数, 使得计算过程更 简单易用, 减少计算的复杂度, 避免每一次都需 要计算原始向量的平行方向损失系数以及垂直 方向损失系数。 权利要求书2页 说明书11页 附图3页 CN 115391404 A 2022.11.25 CN 115391404 A 1.一种数据检索方法, 其特 征在于, 所述方法包括: 对多个原始数据分别进行向量化, 得到多个原始向量, 其中, 所述原始数据为可供用户 检索的数据; 根据所述多个原始向量, 确定多个目标量化中心, 各所述目标量化中心为所述多个原 始向量中至少一个原 始向量对应的中心向量; 根据目标向量系数, 确定各原始向量到各所述目标量化中心的距离, 其中, 所述目标向 量系数基于所述原 始向量的维数以及预设的优化级别确定的; 根据各原始向量到各所述目标量化中心 的距离, 确定各原始向量对应的目标向量, 并 将所述目标向量作为所述原 始数据对应的向量; 在获取到用户输入的数据检索请求后, 根据所述数据检索请求中的参数信息, 对所述 目标向量进行检索, 得到至少一个检索向量, 并将各检索向量对应的原始数据作为待输出 的检索结果。 2.根据权利要求1所述的数据检索方法, 其特征在于, 根据所述多个原始向量, 确定多 个目标量 化中心, 包括: 从多个原 始向量中随机 筛选出多个向量作为多个初始量 化中心; 根据目标向量系数确定各原 始向量到各 所述初始量 化中心的距离; 根据各原始向量到各所述初始量化中心 的距离将各原始向量进行聚类, 得到多个簇, 各所述簇包括各初始量 化中心以及与各初始量 化中心关联的至少一个原 始向量; 更新各所述簇的量化中心, 得到多个新的初始量化中心, 并重新执行所述根据目标向 量系数确定各原始向量到各所述初始量化中心的距离的步骤, 直至满足收敛条件, 将满足 收敛条件时的各新的初始量 化中心作为所述目标量 化中心。 3.根据权利要求1所述的数据检索方法, 其特征在于, 所述根据目标向量系数, 确定各 原始向量到各 所述目标量 化中心的距离, 包括: 将所述目标向量系数作为预设的加权距离计算公式的输入参数, 通过所述加权距离计 算公式确定各原 始向量到各 所述目标量 化中心的距离 。 4.根据权利要求3所述的数据检索方法, 其特 征在于, 所述加权距离计算公式为: 其中, xi为各原始向量, ci为各目标量 化中心, ωN为目标向量系数。 5.根据权利要求1所述的数据检索方法, 其特征在于, 所述根据目标向量系数, 确定各 原始向量到各 所述目标量 化中心的距离之前, 还 包括: 根据所述原 始向量的维数以及所述优化级别, 确定所述目标向量系数。 6.根据权利要求5所述的数据检索方法, 其特征在于, 根据原始向量的维数以及所述优 化级别, 确定所述目标向量系数, 包括: 将所述原始向量的维数以及所述优化级别作为预设的加权系数计算公式的输入参数, 通过所述加权系数计算公式确定所述目标向量系数。 7.根据权利要求6所述的数据检索方法, 其特 征在于, 所述加权系数计算公式为:权 利 要 求 书 1/2 页 2 CN 115391404 A 2其中, ωN为目标向量系数, d为原 始向量的维数, N 为优化级别。 8.一种数据检索装置, 其特 征在于, 包括: 量化模块, 用于对多个原始数据分别进行向量化, 得到多个原始向量, 其中, 所述原始 数据为可 供用户检索的数据; 确定模块, 用于根据 所述多个原始向量, 确定多个目标量化中心, 各所述目标量化中心 为所述多个原 始向量中至少一个原 始向量对应的中心向量; 确定模块, 用于根据目标向量系数, 确定各原始向量到各所述目标量化中心的距离, 其 中, 所述目标向量系数基于所述原 始向量的维数以及预设的优化级别确定的; 确定模块, 用于根据各原始向量到各所述目标量化中心 的距离, 确定各原始向量对应 的目标向量, 并将所述目标向量作为所述原 始数据对应的向量; 检索模块, 用于在获取到用户输入的数据检索请求后, 根据所述数据检索请求中的参 数信息, 对所述目标向量进 行检索, 得到至少一个检索向量, 并将各检索向量对应的原始数 据作为待输出的检索结果。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器存储有所述处理器可 执行的计算机程序, 所述处理器执行所述计算机程序时实现上述权利要求1 ‑7任一项所述 的数据检索方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处 理器运行时执 行如权利要求1 ‑7任一项所述的数据检索方法的步骤。权 利 要 求 书 2/2 页 3 CN 115391404 A 3

.PDF文档 专利 数据检索方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据检索方法、装置、电子设备及存储介质 第 1 页 专利 数据检索方法、装置、电子设备及存储介质 第 2 页 专利 数据检索方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:17:57上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。