专利 一种数据表的合并方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211070750.7 (22)申请日 2022.09.02 (71)申请人中国银行股份有限公司地址 100818 北京市西城区复兴门内大街1 号 (72)发明人倪守航　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师高勇 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) (54)发明名称一种数据表的合并方法、系统、设备及存储介质 (57)摘要本发明公开了一种数据表的合并方法、系统、设备及存储介质，可应用于大数据领域或金融领域。其中，方法包括：基于预设字段名对照表和预设字符串匹配算法，对待处理数据表进行预处理，获得待处理数据表中各字段名的内容标识，将各字段名的内容标识作为输入，输入到预设聚类模型中，获得各字段名的分类结果，将待处理数据表中的待添加数据列，添加至与目标数据表标识符对应的目标数据表中，其中，待添加数据列是待处理数据表中，添加状态标识符的内容为允许添加的字段名所在的数据列，在待添加数据列中的数据均添加至目标数据表后，将待处理数据表删除。本发明降低了冗余表结构对存储资源的占用率。权利要求书2页说明书8页附图2页 CN 115408397 A 2022.11.29 CN 115408397 A 1.一种数据表的合并方法，其特征在于，所述合并方法包括：基于预设字段名对照表和预设字符串匹配算法，对待处理数据表进行预处理，获得所述待处理数据表中各字段名的内容标识；将各所述字段名的内容标识作为输入，输入到预设聚类模型中，获得各所述字段名的分类结果，其中，所述分类结果包括字段名的添加状态标识符和目标数据表标识符；将所述待处理数据表中的待添加数据列，添加至与所述目标数据表标识符对应的目标数据表中，其中，所述待添加数据列是所述待处理数据表中，所述添加状态标识符的内容为允许添加的所述字段名所在的数据列；在所述待添加数据列中的数据均添加至所述目标数据表后，将所述待处理数据表删除。 2.根据权利要求1所述的方法，其特征在于，所述预设聚类模型的训练过程包括：根据目标数据库中设定存储的多个类型的数据表，确定分类数量，并将所述分类数量设定为初始聚类模型的聚类数值；对各所述类型的数据表：从该类型的数据表中提取预设数量个样本字段名；对各所述样本字段名：利用预设矩阵生成算法，对该样本字段名进行数据转换，获得与该样本字段名对应的样本内容标识；将所述样本内容标识确定为该类型的数据表的样本数据；获得样本数据组，并将所述样本数据输入至所述初始聚类模型中，以使所述初始聚类模型进行调参操作，获得所述预设聚类模型；所述预设聚类模型的输入是各所述字段名的内容标识，输出是所述分类结果。 3.根据权利要求1所述的方法，其特征在于，所述基于预设字段名对照表和预设字符串匹配算法，对待处理数据表进行预处理，获得所述待处理数据表中各字段名的内容标识，包括：利用所述预设字符串匹配算法，确定所述待处理数据表的各字段名信息；对各所述字段名信息：从所述预设字段名对照表中，查找与该字段信息中的字段序号对应的对照字段名；判断所述对照字段名与该字段信息中的所述字段名是否一致，若是，则根据所述对照字段名对应的内容标识，更新该字段信息中的内容标识。 4.根据权利要求3所述的方法，其特征在于，在该字段信息中的字段名与所述对照字段名不一致的情况下，还包括：将该字段信息中的内容标识置零。 5.根据权利要求1所述的方法，其特征在于，将所述待处理数据表中的待添加数据列，添加至与所述目标数据表标识符对应的目标数据表中，包括：对各字段名：判断该字段名的所述添加状态标识内容是否为所述允许添加，若是，则将该字段名确定为目标字段名；对各所述目标字段名：将所述待处理数据表中，该目标字段名所在的数据列确定为所述待添加数据列；读取该目标字段名的所述目标数据标识符，获得所述待添加数据列在所述目标数据表中的添加位置标识；将所述待添加数据列添加至与所述添加位置标识对应的位置。 6.一种数据表的合并系统，其特征在于，所述合并系统包括：预处理模块，用于基于预设字段名对照表和预设字符串匹配算法，对待处理数据表进权　利　要　求　书 1/2 页 2 CN 115408397 A 2行预处理，获得所述待处理数据表中各字段名的内容标识；分类模块，用于将各所述字段名的内容标识作为输入，输入到预设聚类模型中，获得各所述字段名的分类结果，其中，所述分类结果包括字段名的添加状态标识符和目标数据表标识符；数据合并模块，用于将所述待处理数据表中的待添加数据列，添加至与所述目标数据表标识符对应的目标数据表中，其中，所述待添加数据列是所述待处理数据表中，所述添加状态标识符的内容为允许添加的所述字段名所在的数据列；数据删除模块，在所述待添加数据列中的数据均添加至所述目标数据表后，将所述待处理数据表删除。 7.根据权利要求6所述的合并系统，其特征在于，所述合并系统还包括：模型训练模块，用于根据目标数据库中设定存储的多个类型的数据表，确定分类数量，并将所述分类数量设定为初始聚类模型的聚类数值；对各所述类型的数据表：从该类型的数据表中提取预设数量个样本字段名；对各所述样本字段名：利用预设矩阵生成算法，对该样本字段名进行数据转换，获得与该样本字段名对应的样本内容标识；将所述样本内容标识确定为该类型的数据表的样本数据；获得样本数据组，并将所述样本数据输入至所述初始聚类模型中，以使所述初始聚类模型进行调参操作，获得所述预设聚类模型；所述预设聚类模型的输入是各所述字段名的内容标识，输出是所述分类结果。 8.根据权利要求6所述的合并系统，其特征在于，所述预处理模块被具体设置为：利用所述预设字符串匹配算法，确定所述待处理数据表的各字段名信息；对各所述字段名信息：从所述预设字段名对照表中，查找与该字段信息中的字段序号对应的对照字段名；判断所述对照字段名与该字段信息中的所述字段名是否一致，若是，则根据所述对照字段名对应的内容标识，更新该字段信息中的内容标识。 9.一种数据表的合并设备，其特征在于，所述合并设备包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的数据表的合并方法。 10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由数据表的合并设备的处理器执行时，使得所述合并设备能够执行如权利要求 1至5中任一项所述的数据表的合并方法。权　利　要　求　书 2/2 页 3 CN 115408397 A 3

专利 一种数据表的合并方法、系统、设备及存储介质

专利一种数据表的合并方法、系统、设备及存储介质