专利 档案合并方法、装置、计算机设备及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210873570.6 (22)申请日 2022.07.21 (71)申请人广州云从人工智能技术有限公司地址 511458 广东省广州市南沙区丰泽东路106号(自编1号楼)X13 01-G4169 (72)发明人周超　凌英剑　田国栋　 (74)专利代理机构北京瀚仁知识产权代理事务所(普通合伙) 11482 专利代理师屠晓旭 (51)Int.Cl. G06F 16/2455(2019.01) (54)发明名称档案合并方法、装置、计算机设备及计算机可读存储介质 (57)摘要本发明涉及计算机技术领域，具体涉及一种档案合并方法、装置、计算机设备及计算机可读存储介质，旨在解决提高档案准确性的问题。为此目的，本发明的方法包括分别确定第一待检测档案在第一数据底库(第一待检测档案与干扰集合形成的数据底库)中的第一底库最近邻重合度，第一待检测档案在第二数据底库(第一待检测档案、第二待检测档案与干扰集合形成的数据底库)中的第二底库最近邻重合度，根据第一、第二底库最近邻重合度，确定是否对第一待检测档案与第二待检测档案进行档案合并。通过上述方式，可以充分挖掘不同待检测档案中档案数据之间的相关性，从而能够最大程度地将属于同一目标对象的待检测档案合并到一起，提高档案准确性。权利要求书3页说明书11页附图4页 CN 115168425 A 2022.10.11 CN 115168425 A 1.一种档案合并方法，其特征在于，所述方法包括：根据第一待检测档案中的第一档案数据与预设的干扰集合中的干扰数据形成第一数据底库，在所述第一数据底库中检索每个所述第一档案数据的第一底库最近邻数据，根据不同第一档案数据各自对应的第一底库最近邻数据之间的重合度，确定所述第一待检测档案在所述第一数据底库中的第一底库最近邻重合度；根据所述第一待检测档案中的第一档案数据、第二待检测档案中的第二档案数据与所述预设的干扰集合中的干扰数据形成第二数据底库，在所述第二数据底库中检索每个所述第一档案数据的第二底库最近邻数据，根据不同第一档案数据各自对应的第二底库最近邻数据之间的重合度，确定所述第一待检测档案在所述第二数据底库中的第二底库最近邻重合度；根据所述第一底库最近邻重合度与所述第二底库最近邻重合度，确定是否对所述第一待检测档案与所述第二待检测档案进行档案合并。 2.根据权利要求1所述的档案合并方法，其特征在于， “根据所述第一底库最近邻重合度与所述第二底库最近邻重合度，确定是否对所述第一待检测档案与所述第二待检测档案进行档案合并 ”的步骤具体包括：确定所述第二底库最近邻重合度与所述第一底库最近邻重合度之间的重合度偏差；根据所述重合度偏差与预设的偏差阈值的比较结果，选择性地对所述第一待检测档案与所述第二待检测档案进行档案合并，具体包括：若所述重合度偏差大于等于所述预设的偏差阈值，则进行档案合并；若所述重合度偏差小于所述预设的偏差阈值，则不进行档案合并。 3.根据权利要求2所述的档案合并方法，其特征在于， “根据所述重合度偏差与预设的偏差阈值的比较结果，选择性地对所述第一待检测档案与所述第二待检测档案进行档案合并”的步骤进一步包括：根据所述第二待检测档案中的第二档案数据与预设的干扰集合中的干扰数据形成第三数据底库，在所述第三数据底库中检索每个所述第二档案数据的第三底库最近邻数据，根据不同第二档案数据各自对应的第三底库最近邻数据之间的重合度，确定所述第二待检测档案在所述第三数据底库中的第三底库最近邻重合度；判断所述重合度偏差是否大于等于所述预设的偏差阈值并且所述第一底库最近邻重合度与所述第三底库最近邻重合度是否分别大于等于预设的重合度阈值；若是，则进行档案合并；若否，则不进行档案合并。 4.根据权利要求3所述的档案合并方法，其特征在于，所述方法还包括通过下列方式分别确定所述第一底库最近邻重合度或所述第二底库最近邻重合度或所述第三底库最近邻重合度：根据所述第一底库最近邻数据或第二底库最近邻数据或第三底库最近邻数据之间的重合度，并通过下列公式分别确定所述第一底库最近邻重合度或所述第二底库最近邻重合度或所述第三底库最近邻重合度：权　利　要　求　书 1/3 页 2 CN 115168425 A 2其中，当Dbase表示所述第一数据底库时， S表示所述第一待检测档案， sn(S1,Dbase)表示所述第一底库最近邻重合度， n表示所述第一待检测档案中第一档案数据的总数， psnij表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的第一底库最近邻数据之间的重合度；当Dbase表示所述第二数据底库时， S表示所述第一待检测档案， sn(S1,Dbase)表示所述第二底库最近邻重合度， n表示所述第一待检测档案中第一档案数据的总数， psnij表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的第二底库最近邻数据之间的重合度；当Dbase表示所述第三数据底库时， S表示所述第二待检测档案， sn(S1,Dbase)表示所述第三底库最近邻重合度， n表示所述第二待检测档案中第二档案数据的总数， psnij表示所述第二待检测档案中第i个第二档案数据与第j个第二档案数据对应的第三底库最近邻数据之间的重合度。 5.根据权利要求3所述的档案合并方法，其特征在于，所述方法还包括通过下列公式分别计算所述第一底库最近邻数据或所述第二底库最近邻数据或所述第三底库最近邻数据之间的重合度： psnij＝N(ni(k)∩nj(k)) 其中， N表示计数函数；当psnij表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的第一底库最近邻数据之间的重合度时， ni(k)和nj(k)分别表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的k个第一底库最近邻数据， k>1；当psnij表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的第二底库最近邻数据之间的重合度时， ni(k)和nj(k)分别表示所述第一待检测档案中第i个第一档案数据与第j个第一档案数据对应的k个第二底库最近邻数据， k>1；当psnij表示所述第二待检测档案中第i个第二档案数据与第j个第二档案数据对应的第三底库最近邻数据之间的重合度时， ni(k)和nj(k)分别表示所述第二待检测档案中第i个第二档案数据与第j个第二档案数据对应的k个第三底库最近邻数据， k>1。 6.根据权利要求3所述的档案合并方法，其特征在于，所述方法还包括通过下列方式分别检索所述第一底库最近邻数据或所述第二底库最近邻数据或所述第三底库最近邻数据：采用最近邻算法，在待检索数据库中检索得到待检索档案数据的初始的底库最近邻数据；根据所述待检索档案数据与每个所述初始的底库最近邻数据之间的相似度，对所述初始的底库最近邻数据进行筛选，得到最终的底库最近邻数据；其中，当所述待检索数据库是所述第一数据底库且所述待检索档案数据是第一档案数据时所述初始的底库最近邻数据是初始的第一底库最近邻数据，所述最终的底库最近邻数据是最终的第一底库最近邻数据；当所述待检索数据库是所述第二数据底库且所述待检索档案数据是第一档案数据时所述初始的底库最近邻数据是初始的第二底库最近邻数据，所述最终的底库最近邻数据是权　利　要　求　书 2/3 页 3 CN 115168425 A 3

专利 档案合并方法、装置、计算机设备及计算机可读存储介质

专利档案合并方法、装置、计算机设备及计算机可读存储介质