(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210873570.6
(22)申请日 2022.07.21
(71)申请人 广州云从人工智能技 术有限公司
地址 511458 广东省广州市南沙区丰泽 东
路106号(自编1号楼)X13 01-G4169
(72)发明人 周超 凌英剑 田国栋
(74)专利代理 机构 北京瀚仁知识产权代理事务
所(普通合伙) 11482
专利代理师 屠晓旭
(51)Int.Cl.
G06F 16/2455(2019.01)
(54)发明名称
档案合并方法、 装置、 计算机设备及计算机
可读存储介质
(57)摘要
本发明涉及计算机技术领域, 具体涉及一种
档案合并方法、 装置、 计算机设备及计算机可读
存储介质, 旨在解决提高档案准确性的问题。 为
此目的, 本发 明的方法包括分别确定第一待检测
档案在第一数据底库(第一待检测档案与干扰集
合形成的数据底库)中的第一底库最近邻重合
度, 第一待检测档案在第二数据底库(第一待检
测档案、 第二待检测档案与干扰集合形成的数据
底库)中的第二底库最近邻重合度, 根据第一、 第
二底库最近邻重合度, 确定是否对第一待检测档
案与第二待检测档案进行档案合并。 通过上述方
式, 可以充分挖掘不同待检测档案中档案数据之
间的相关性, 从而能够最大程度地将属于同一目
标对象的待检测档案合并到一起, 提高档案准确
性。
权利要求书3页 说明书11页 附图4页
CN 115168425 A
2022.10.11
CN 115168425 A
1.一种档案合并方法, 其特 征在于, 所述方法包括:
根据第一待检测档案中的第一档案数据与预设的干扰集合中的干扰数据形成第一数
据底库, 在所述第一数据底库中检索每个所述第一档案数据的第一底库最近邻数据, 根据
不同第一档案数据各自对应的第一底库最近邻数据之 间的重合度, 确定所述第一待检测档
案在所述第一数据底库中的第一底库最近邻重合度;
根据所述第 一待检测档案 中的第一档案数据、 第 二待检测档案中的第 二档案数据与 所
述预设的干扰集合中的干扰数据形成第二数据 底库, 在所述第二数据 底库中检索每个所述
第一档案数据的第二底库最近邻数据, 根据不同第一档案数据各自对应的第二底库最近邻
数据之间的重合度, 确定所述第一待检测档案在所述第二数据底库中的第二底库最近邻重
合度;
根据所述第 一底库最近邻 重合度与 所述第二底库最近邻 重合度, 确定是否对所述第 一
待检测档案与所述第二待检测档案进行档案合并。
2.根据权利要求1所述的档案合并方法, 其特征在于, “根据所述第一底库最近邻重合
度与所述第二底库最近邻重合度, 确定是否对所述第一待检测档案与所述第二待检测档案
进行档案合并 ”的步骤具体包括:
确定所述第二底库最近邻重合度与所述第一底库最近邻重合度之间的重合度偏差;
根据所述重合度偏差与预设的偏差 阈值的比较结果, 选择性地对所述第 一待检测档 案
与所述第二待检测档案进行档案合并, 具体包括:
若所述重合度偏差大于等于所述预设的偏差阈值, 则进行档案合并;
若所述重合度偏差小于所述预设的偏差阈值, 则不进行档案合并。
3.根据权利要求2所述的档案合并方法, 其特征在于, “根据所述重合度偏差与预设的
偏差阈值的比较结果, 选择性地对所述第一待检测档案与所述第二待检测档案进 行档案合
并”的步骤进一 步包括:
根据所述第二待检测档案中的第二档案数据与预设的干扰集合中的干扰数据形成第
三数据底库, 在所述第三数据底库中检索每个所述第二档案数据的第三底库最近邻数据,
根据不同第二档案数据各自对应的第三底库最近邻数据之 间的重合度, 确定所述第二待检
测档案在所述第三数据底库中的第三底库最近邻重合度;
判断所述重合度偏差是否大于等于所述预设的偏差阈值并且所述第一底库最近邻重
合度与所述第三底库最近邻重合度是否分别大于等于预设的重合度阈值;
若是, 则进行档案合并;
若否, 则不进行档案合并。
4.根据权利要求3所述的档案合并方法, 其特征在于, 所述方法还包括通过下列 方式分
别确定所述第一底库最近邻重合度或所述第二底库最近邻重合度或所述第三底库最近邻
重合度:
根据所述第一底库最近邻数据或第二底库最近邻数据或第三底库最近邻数据之间的
重合度, 并通过下列公式分别确定所述第一底库最近邻重合度或所述第二底库最近邻重合
度或所述第三底库最近邻重合度:
权 利 要 求 书 1/3 页
2
CN 115168425 A
2其中,
当Dbase表示所述第一数据底库时, S表示所述第一待检测档案, sn(S1,Dbase)表示所述第
一底库最近邻重 合度, n表示 所述第一待检测档案中第一档案数据的总数, psnij表示所述第
一待检测档案中第i个第一档案数据与第j个第一档案数据对应的第一底库最近邻数据之
间的重合度;
当Dbase表示所述第二数据底库时, S表示所述第一待检测档案, sn(S1,Dbase)表示所述第
二底库最近邻重 合度, n表示 所述第一待检测档案中第一档案数据的总数, psnij表示所述第
一待检测档案中第i个第一档案数据与第j个第一档案数据对应的第二底库最近邻数据之
间的重合度;
当Dbase表示所述第三数据底库时, S表示所述第二待检测档案, sn(S1,Dbase)表示所述第
三底库最近邻重 合度, n表示 所述第二待检测档案中第二档案数据的总数, psnij表示所述第
二待检测档案中第i个第二档案数据与第j个第二档案数据对应的第三底库最近邻数据之
间的重合度。
5.根据权利要求3所述的档案合并方法, 其特征在于, 所述方法还包括通过下列公式分
别计算所述第一底库最近邻数据或所述第二底库最近邻数据或所述第三底库最近邻数据
之间的重合度:
psnij=N(ni(k)∩nj(k))
其中, N表示计数函数;
当psnij表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的
第一底库最近邻数据之间的重合度时, ni(k)和nj(k)分别表示 所述第一待检测档案中第i个
第一档案数据与第j个第一档案数据对应的k个第一底库最近邻数据, k>1;
当psnij表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的
第二底库最近邻数据之间的重合度时, ni(k)和nj(k)分别表示 所述第一待检测档案中第i个
第一档案数据与第j个第一档案数据对应的k个第二底库最近邻数据, k>1;
当psnij表示所述第二待检测档案中第i个第二档案数据与第j个第二档案数据对应的
第三底库最近邻数据之间的重合度时, ni(k)和nj(k)分别表示 所述第二待检测档案中第i个
第二档案数据与第j个第二档案数据对应的k个第三底库最近邻数据, k>1。
6.根据权利要求3所述的档案合并方法, 其特征在于, 所述方法还包括通过下列 方式分
别检索所述第一底库最近邻数据或所述第二底库最近邻数据或所述第三底库最近邻数据:
采用最近邻算法, 在待检索数据库中检索得到待检索档 案数据的初始的底库最近邻数
据;
根据所述待检索档案数据与每个所述初始的底库最近邻数据之间的相似度, 对所述初
始的底库最近邻数据进行筛 选, 得到最终的底库最近邻数据;
其中,
当所述待检索数据库是所述第一数据底库且所述待检索档案数据是第一档案数据时
所述初始的底库最近邻数据是初始的第一底库最近邻数据, 所述最 终的底库最近邻数据是
最终的第一底库最近邻数据;
当所述待检索数据库是所述第二数据底库且所述待检索档案数据是第一档案数据时
所述初始的底库最近邻数据是初始的第二底库最近邻数据, 所述最 终的底库最近邻数据是权 利 要 求 书 2/3 页
3
CN 115168425 A
3
专利 档案合并方法、装置、计算机设备及计算机可读存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:18:11上传分享