说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211070750.7 (22)申请日 2022.09.02 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 倪守航  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 高勇 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) (54)发明名称 一种数据表的合并方法、 系统、 设备及存储 介质 (57)摘要 本发明公开了一种数据表的合并方法、 系 统、 设备及存储介质, 可应用于大数据领域或金 融领域。 其中, 方法包括: 基于预设字段名对照表 和预设字符串匹配算法, 对待处理数据表进行预 处理, 获得待处理数据表中各字段名的内容标 识, 将各字段名的内容标识作为输入, 输入到预 设聚类模型中, 获得各字段名的分类结果, 将待 处理数据表中的待添加数据列, 添加至与目标数 据表标识符对应的目标数据表中, 其中, 待添加 数据列是待处理数据表中, 添加状态标识符的内 容为允许添加的字段名所在的数据列, 在待添加 数据列中的数据均添加至目标数据表后, 将待处 理数据表删除。 本发明降低了冗余表结构对存储 资源的占用率。 权利要求书2页 说明书8页 附图2页 CN 115408397 A 2022.11.29 CN 115408397 A 1.一种数据表的合并方法, 其特 征在于, 所述 合并方法包括: 基于预设字段名对照表和预设字符串匹配算法, 对待处理数据表进行预处理, 获得所 述待处理数据表中各字段名的内容标识; 将各所述字段名的内容标识作为输入, 输入到预设聚类模型中, 获得各所述字段名的 分类结果, 其中, 所述分类结果包括字段名的添加状态标识符和目标 数据表标识符; 将所述待处理数据表中的待添加数据列, 添加至与所述目标数据表标识符对应的目标 数据表中, 其中, 所述待 添加数据列是所述待处理数据 表中, 所述添加状态标识符的内容为 允许添加的所述字段名所在的数据列; 在所述待添加数据列中的数据均添加至所述目标数据表后, 将所述待处理数据表删 除。 2.根据权利要求1所述的方法, 其特 征在于, 所述预设聚类模型的训练过程包括: 根据目标数据库中设定存储的多个类型的数据表, 确定分类数量, 并将所述分类数量 设定为初始聚类模型的聚类数值; 对各所述类型的数据表: 从该类型的数据表中提取预设数量个样本字段名; 对各所述 样本字段名: 利用预设矩阵生成算法, 对该样 本字段名进行数据转换, 获得与该样本字段名 对应的样本内容标识; 将所述样本内容标识确定为该类型的数据表的样本数据; 获得样本数据组, 并将所述样本数据输入至所述初始聚类模型中, 以使所述初始聚类 模型进行调参操作, 获得 所述预设聚类模型; 所述预设聚类模型的输入是 各所述字段名的内容标识, 输出 是所述分类结果。 3.根据权利要求1所述的方法, 其特征在于, 所述基于预设字段名对照表和预设字符串 匹配算法, 对待处理数据 表进行预处理, 获得所述待处理数据 表中各字段名的内容标识, 包 括: 利用所述预设字符串匹配算法, 确定所述待处 理数据表的各字段名信息; 对各所述字段名信息: 从所述预设字段名对照表中, 查找与该字段信息中的字段序号 对应的对照字段名; 判断所述对照字段名与该字段信息中的所述字段名是否一致, 若 是, 则 根据所述对照字段名对应的内容标识, 更新该字段信息中的内容标识。 4.根据权利要求3所述的方法, 其特征在于, 在该字段信 息中的字段名与所述对照字段 名不一致的情况 下, 还包括: 将该字段信息中的内容标识置零。 5.根据权利要求1所述的方法, 其特征在于, 将所述待处理数据表中的待添加数据列, 添加至与所述目标 数据表标识符对应的目标 数据表中, 包括: 对各字段名: 判断该字段名的所述添加状态标识内容是否为所述允许添加, 若是, 则将 该字段名确定为目标字段名; 对各所述目标字段名: 将所述待处理数据表中, 该目标字段名所在的数据列确定为所 述待添加数据列; 读取该目标字段名的所述 目标数据标识符, 获得所述待添加数据列在所 述目标数据表中的添加位置标识; 将所述待 添加数据列添加至与所述添加位置标识对应的 位置。 6.一种数据表的合并系统, 其特 征在于, 所述 合并系统包括: 预处理模块, 用于基于预设字段名对照表和预设字符串匹配算法, 对待处理数据表进权 利 要 求 书 1/2 页 2 CN 115408397 A 2行预处理, 获得所述待处 理数据表中各字段名的内容标识; 分类模块, 用于将各所述字段名的内容标识作为输入, 输入到预设聚类模型中, 获得各 所述字段名的分类结果, 其中, 所述分类结果包括字段名的添加状态标识符和目标数据表 标识符; 数据合并模块, 用于将所述待处理数据表中的待添加数据列, 添加至与所述目标数据 表标识符对应的目标数据 表中, 其中, 所述待添加数据列是所述待处理数据表中, 所述添加 状态标识符的内容 为允许添加的所述字段名所在的数据列; 数据删除模块, 在所述待添加数据列中的数据均添加至所述目标数据表后, 将所述待 处理数据表删除。 7.根据权利要求6所述的合并系统, 其特 征在于, 所述 合并系统还 包括: 模型训练模块, 用于根据目标数据库中设定存储的多个类型的数据表, 确定分类数量, 并将所述分类数量设定为初始聚类模型 的聚类数值; 对各所述类型 的数据表: 从该类型 的 数据表中提取预设数量个样 本字段名; 对各所述样本字段名: 利用预设矩阵生成算法, 对该 样本字段名进行数据转换, 获得与该样本字段名对应的样本内容标识; 将所述样本内容标 识确定为该类型 的数据表的样本数据; 获得样本数据组, 并将所述样本数据输入至所述初 始聚类模 型中, 以使 所述初始聚类模型进 行调参操作, 获得所述预设聚类模型; 所述预设聚 类模型的输入是 各所述字段名的内容标识, 输出 是所述分类结果。 8.根据权利要求6所述的合并系统, 其特 征在于, 所述预处 理模块被具体设置为: 利用所述预设字符串匹配算法, 确定所述待处 理数据表的各字段名信息; 对各所述字段名信息: 从所述预设字段名对照表中, 查找与该字段信息中的字段序号 对应的对照字段名; 判断所述对照字段名与该字段信息中的所述字段名是否一致, 若 是, 则 根据所述对照字段名对应的内容标识, 更新该字段信息中的内容标识。 9.一种数据表的合并设备, 其特 征在于, 所述 合并设备包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至5中任一项所述的数 据表的合并方法。 10.一种计算机可读存储介质, 其特征在于, 当所述计算机可读存储介质中的指令由数 据表的合并设备的处理器执行时, 使得所述合并设备能够执行如权利要求 1至5中任一项 所 述的数据表的合并方法。权 利 要 求 书 2/2 页 3 CN 115408397 A 3

.PDF文档 专利 一种数据表的合并方法、系统、设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据表的合并方法、系统、设备及存储介质 第 1 页 专利 一种数据表的合并方法、系统、设备及存储介质 第 2 页 专利 一种数据表的合并方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:15:36上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。