说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211021911.3 (22)申请日 2022.08.24 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 朱崇凯 江文龙 周明伟  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 严翠霞 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/28(2019.01) (54)发明名称 数据提取方法、 电子设备和计算机可读存储 介质 (57)摘要 本申请公开了一种数据提取方法、 电子设备 和计算机可读存储介质, 该方法包括: 获得Hive 数据表并确定所述Hive数据表中的分区表; 获得 初始过滤总语句, 基于所述初始过滤总语句中与 所述分区表相关的过滤语句生 成查询语句, 执行 所述查询语句, 从所述Hive数据表中提取至少部 分所述分区表中的数据, 得到待提取数据表; 获 得预设筛选条件, 从所述待提取数据表中提取与 所述预设筛选条件相符的数据。 上述方案, 能够 提高数据提取的效率。 权利要求书2页 说明书9页 附图3页 CN 115481152 A 2022.12.16 CN 115481152 A 1.一种数据提取 方法, 其特 征在于, 所述方法包括: 获得Hive 数据表并确定所述Hive 数据表中的分区表; 获得初始过滤总语句, 基于所述初始过滤总语句中与 所述分区表相关的过滤语句生成 查询语句, 执行所述查询语句, 从所述Hiv e数据表中提取至少部 分所述分区表中的数据, 得 到待提取 数据表; 获得预设筛选条件, 从所述待提取 数据表中提取与所述预设筛 选条件相符的数据。 2.根据权利要求1所述的数据提取方法, 其特征在于, 所述获得Hive数据表并确定所述 Hive数据表中的分区表, 包括: 获得所述Hive数据表及其对应的存储路径, 基于所述存储路径提取所述Hive数据表对 应的源数据文件, 确定所述源数据文件中的分区表及其对应的分区名, 确定所述分区表中 的文件及其对应的文件名; 基于所述分区名和所述文件名, 对所述源数据文件中的所有文件进行排序, 得到文件 列表。 3.根据权利要求2所述的数据提取方法, 其特征在于, 所述获得初始过滤总语句, 基于 所述初始过滤总语句中与所述分区表相关的过滤语句生成查询语句, 执行所述查询语句, 从所述Hive 数据表中提取至少部分所述分区表中的数据, 得到待提取 数据表, 包括: 获得所述初始过滤总语句, 从所述初始过滤总语句中提取目标过滤语句, 基于所述目 标过滤语句生成所述 查询语句; 其中, 所述目标 过滤语句包括所述分区表的分区字段; 执行所述查询语句, 从所述文件列表中提取目标文件, 得到所述目标文件中的数据组 成的待提取 数据表; 其中, 所述目标文件与所述初始过 滤总语句中包 含的分区字段相关。 4.根据权利要求3所述的数据提取方法, 其特征在于, 所述获得所述初始过滤总语句, 从所述初始过滤总语句中提取目标过滤语句, 基于所述 目标过滤语句生成所述查询语句, 包括: 获得所述初始过滤总语句, 逐个层级对所述初始过滤总语句进行语法分解, 得到多个 语句单元; 响应于当前层级的所述语句单元中包括最小语句单元, 将包括所述分区字段的最小语 句单元加入条件列表; 响应于分解至所述初始过滤总语句的最低层级, 合并所述条件列表中的所述最小语句 单元, 得到所述目标 过滤语句, 将所述目标 过滤语句转换成所述 查询语句。 5.根据权利要求1所述的数据提取方法, 其特征在于, 所述获得预设筛选条件, 从所述 待提取数据表中提取与所述预设筛 选条件相符的数据, 包括: 基于所述待提取数据表中所有数据的顺序, 生成所有数据各自对应的多个待执行任 务, 将所述待执 行任务标记为未 执行任务; 执行所述待执行任务, 以读取所述待执行任务对应的数据, 基于所述预设筛选条件对 读取到的数据进行筛序, 得到与所述预设筛 选条件相符的数据; 将预设时长作为周期, 响应于每经过所述预设时长, 将已执行的所述待执行任务标记 为已执行任务, 直至所有所述待执 行任务执 行完毕。 6.根据权利要求5所述的数据提取方法, 其特征在于, 所述执行所述待执行任务, 以读 取所述待执行任务对应的数据, 基于所述预设筛选条件对读取到的数据进行筛序, 得到与权 利 要 求 书 1/2 页 2 CN 115481152 A 2所述预设筛 选条件相符的数据, 包括: 获得任务数量阈值, 基于所述任务数量阈值和未执行的所述待执行任务的数量, 确定 所述待执 行任务的可 执行数量; 并行执行所述可执行数量个所述待执 行任务, 读取 所述待执 行任务对应的数据; 将读取到的数据与所述预设筛选条件进行比对, 得到与所述预设筛选条件相符的数 据。 7.根据权利要求6所述的数据提取方法, 其特征在于, 所述基于所述任务数量阈值和未 执行的所述待执 行任务的数量, 确定所述待执 行任务的可 执行数量, 包括: 响应于所述未执行的所述待执行任务的数量大于所述任务数量阈值, 将所述任务数量 阈值作为所述可执行数量; 或者, 响应于所述未执行 的所述待执行任务的数量小于或等于 所述任务数量阈值, 将未 执行的所述待执 行任务的数量作为所述可 执行数量; 所述并行执行所述可执行数量个所述待执行任务, 读取所述待执行任务对应的数据, 包括: 并行执行所述可执行数量个待执 行任务, 读取 所述待执 行任务对应的数据; 响应于未读取到任一所述待执行任务对应的数据, 跳过未读取到数据的待执行任务并 生成错误日志。 8.根据权利要求5所述的数据提取方法, 其特征在于, 所述未执行任务对应有未执行标 记, 所述响应于每经过所述预设时长, 将已执行的所述待执行任务标记为已执行任务, 直至 所有所述待执 行任务执 行完毕, 包括: 响应于当前的所述预设时长 内的所有待执行任务对应的数据已读取, 将已读取的数据 对应的待执 行任务的所述未 执行标记删除, 确定所述已执 行任务; 基于所述未执行标记, 查找到包括所述未执行标记的剩余的未执行任务, 将未包括所 述未执行标记的已执 行任务及其对应的数据删除; 进入下一个所述预设时长对应的周期, 直至所有所述待执 行任务执 行完毕。 9.一种电子设备, 其特征在于, 包括: 相互耦接的存储器和处理器, 其中, 所述存储器存 储有程序数据, 所述处 理器调用所述 程序数据以执 行如权利要求1 ‑8中任一项所述的方法。 10.一种计算机可读存储介质, 其上存储有程序数据, 其特征在于, 所述程序数据被处 理器执行时实现如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115481152 A 3

.PDF文档 专利 数据提取方法、电子设备和计算机可读存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据提取方法、电子设备和计算机可读存储介质 第 1 页 专利 数据提取方法、电子设备和计算机可读存储介质 第 2 页 专利 数据提取方法、电子设备和计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:17:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。