(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211070609.7
(22)申请日 2022.09.02
(71)申请人 深圳市创富金 科技有限公司
地址 518000 广东省深圳市前海深港合作
区南山街道临海大道59 号海运中心主
塔楼1412号-14179
(72)发明人 宋华
(74)专利代理 机构 深圳市正德知识产权代理事
务所(特殊普通 合伙) 44548
专利代理师 杨正峰 胡珍林
(51)Int.Cl.
G06F 16/242(2019.01)
G06F 16/2455(2019.01)
G06F 16/33(2019.01)
G06F 16/332(2019.01)
(54)发明名称
基于数字序列的数据检索方法、 装置及设备
(57)摘要
本公开涉及一种基于数字序列的数据检索
方法、 装置及设备。 包括: 根据词条拆解原则对待
检索信息进行词条拆解, 对词条拆解后的待检索
信息中的词条进行检索式重排得到预用检索式
集合; 对预用检索式的词性分类, 计算各分类中
预用检索式相对该分类中其他预用检索式的皮
尔逊相关系数; 基于高斯定理, 根据各皮尔逊相
关系数的平均值、 方差、 皮尔逊相关系数, 对预用
检索式进行相似性判断, 根据相似性判断结果对
预用检索式进行去重处理; 根据去重处理后的预
用检索式进行编码, 得到对应的数字序列, 根据
数字序列, 确定查询起始点、 查询半径值和查询
步进步数; 根据查询起始点、 查询步进步数和查
询半径值进行数据检索, 得到待检索数据信息对
应的检索结果。
权利要求书3页 说明书8页 附图2页
CN 115408418 A
2022.11.29
CN 115408418 A
1.一种基于数字序列的数据检索方法, 其特 征在于, 包括:
接收待检索数据请求, 所述待检索数据请求中携带有待检索数据信息和词条拆解原
则, 其中, 所述词条拆解原则包括结构式数据拆解原则和非结构式数据拆解原则;
根据所述词条拆解原则, 对所述待检索数据请求中的待检索信息进行词条拆解, 并对
词条拆解后的待检索信息中的词条进行检索式重排, 得到预用检索式集 合;
对所述预用检索式集合中的各预用检索式的词性分类, 并计算每一分类后的预用检索
式相对该分类中其他预用检索式的皮尔逊相关系数, 并计算各所述皮尔逊相关系数的平均
值和方差;
基于高斯定理, 根据各所述皮尔逊相关系数的平均值、 方差、 各所述皮尔逊相关系数,
对每一分类中的预用检索式进 行相似性判断, 并根据相似性判断结果对每一分类中的预用
检索式进行去重处 理;
根据去重处理后的每一分类预用检索式进行编码, 得到每一预用检索式对应的数字序
列, 根据所述每一预用检索式对应的数字序列, 确定查询起始 点、 查询半径值和查询步进步
数;
以所述查询起始点为 圆心、 且以所述查询步进步数为目标步进步数逐步在所述查询半
径值为半径的圆形区域内进行数据检索, 得到所述待检索数据信息对应的检索结果, 并输
出用于响应所述待检索数据请求的检索结果。
2.根据权利要求1所述的方法, 其特征在于, 所述以所述查询起始点为圆心、 且以所述
查询步进步数为目标步进步数逐步在所述查询半径值为半径的圆形区域内进 行数据检索,
得到所述待检索数据信息对应的检索结果, 并输出用于响应所述待检索数据请求的检索结
果的步骤, 包括:
以所述查询起始点为 圆心, 以初始查询半径为半径在所述查询半径值为半径的圆形区
域内进行 数据检索;
对所述初始查询半径执行加查询步进的操作, 并根据执行加查询步进操作后的初始查
询半径, 在所述 查询半径值 为半径的圆形区域内进行 数据检索;
循环执行所述对所述初始查询半径执行加查询步进的操作, 到所述在所述查询半径值
为半径的圆形区域内进行 数据检索, 直到加查询步进的次数达 到所述查询步进步数。
3.根据权利要求2所述的方法, 其特征在于, 所述输出用于响应所述待检索数据请求的
检索结果, 包括:
逐次将所述初始查询半径为半径对应的检索结果进行展示, 并将执行加查询步进操作
后的初始查询半径对应的检索结果进行展示。
4.根据权利要求1所述的方法, 其特征在于, 所述待检索数据请求包括地理范围条件,
所述根据所述每一预用检索式对应的数字序列, 确定查询起始点、 查询半径值和查询步进
步数的步骤, 包括:
通过数据接口将所述地理范围条件注入检索系统, 从海量数据集中确定满足所述地理
范围条件的查询半径值;
确定各所述预用检索式对应的数字序列中每一数字出现的频率, 并将频率最大的序列
所在的存 储位置作为所述 查询起始点;
确定各所述去重处理后的每一分类的数字序列中不同词性词条的数量, 并将所述不同权 利 要 求 书 1/3 页
2
CN 115408418 A
2词性词条的数量的数值作为所述 查询步进步数。
5.根据权利要求1所述的方法, 其特征在于, 所述根据去重处理后的每一分类预用检索
式进行编码, 得到每一预用检索式对应的数字序列的步骤, 包括:
给定最小信息单 元, 对最小信息单 元进行编码, 编码的结果 为该信息单 元的特征序列;
对所述最小信息单 元进行增量编码, 其中, 所述编码的方式为:
信息序列按 最小单元排列如下: I1、 I2、 I3、 ...、 In; 依次表示为最小单元 1到最小单元n的
排列, 其中, I1的特征序列定义为: t1=hash(n*I1), I2的特征序列定义为: t2=hash[(n ‑1)*
t1+I2], 依此类 推, In的特征序列定义 为: tn=hash(tn‑1+In)。
6.根据权利要求1 ‑5中任意一项所述的方法, 其特征在于, 所述根据所述词条拆解原
则, 对所述待检索数据请求中的待检索信息进行词条拆解的步骤, 包括:
在所述待检索数据信息为结构式数据的情况下, 按照8位字节对所述待检索数据请求
中的待检索信息进行词条拆解, 所述结构式数据拆解原则为所述按照8位字节进行拆解;
在所述待检索数据信 息为非结构式数据的情况下, 对所述待检索数据信 息进行逐字节
滑动的异或计算, 并根据异或计算结果对所述待检索数据请求中的待检索信息进 行词条拆
解, 所述非结构式数据拆解原则为逐字节 滑动的异或计算。
7.一种基于数字序列的数据检索装置, 其特 征在于, 所述装置包括:
接收模块, 被配置为用于接收待检索数据请求, 所述待检索数据请求中携带有待检索
数据信息和词条拆解原则, 其中, 所述词 条拆解原则包括结构式数据拆解原则和非结构 式
数据拆解原则;
拆解模块, 被配置为用于根据所述词条拆解原则, 对所述待检索数据请求中的待检索
信息进行词 条拆解, 并对词条拆解后的待检索信息中的词条进行检索式重排, 得到预用检
索式集合;
分类模块, 被配置为用于对所述预用检索式集合中的各预用检索式的词性分类, 并计
算每一分类后的预用检索式相对该分类中其他预用检索式的皮尔逊相关系数, 并计算各所
述皮尔逊相关系数的平均值和方差;
去重模块, 被配置为用于基于高斯定理, 根据各所述皮尔逊相关系数的平均值、 方差、
各所述皮尔逊相关系 数, 对每一分类中的预用检索式进行相似性判断, 并根据相似性判断
结果对每一分类中的预用检索式进行去重处 理;
确定模块, 被配置为用于根据去重处理后的每一分类预用检索式进行编码, 得到每一
预用检索式对应的数字序列, 根据所述每一预用检索式对应的数字序列, 确定查询起始 点、
查询半径值和查询步进步数;
检索模块, 被配置为用于以所述查询起始点为圆心、 且以所述查询步进步数为目标步
进步数逐步在所述查询半径值为半径的圆形区域内进 行数据检索, 得到所述待检索数据信
息对应的检索结果, 并输出用于响应所述待检索数据请求的检索结果。
8.根据权利要求7 所述的装置, 其特 征在于, 所述检索模块, 被 配置为用于:
以所述查询起始点为 圆心, 以初始查询半径为半径在所述查询半径值为半径的圆形区
域内进行 数据检索;
对所述初始查询半径执行加查询步进的操作, 并根据执行加查询步进操作后的初始查
询半径, 在所述 查询半径值 为半径的圆形区域内进行 数据检索;权 利 要 求 书 2/3 页
3
CN 115408418 A
3
专利 基于数字序列的数据检索方法、装置及设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:17:05上传分享