说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211118429.1 (22)申请日 2022.09.15 (71)申请人 北京清众神州大 数据有限公司 地址 100020 北京市朝阳区亮马桥路39号1 号楼3层C 330 申请人 山西清众科技股份有限公司 (72)发明人 高志熙 张云仙 黄琛 阎东军  安俊杰 刘剑 王亮 李宁  (74)专利代理 机构 北京维正专利代理有限公司 11508 专利代理师 黄春晓 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) (54)发明名称 一种基于可视化数据的清洗方法、 装置及相 关组件 (57)摘要 本发明公开了一种基于可视化数据的清洗 方法、 装置及相关组件, 涉及数据处理领域。 该方 法包括基于采集到的数据源, 调用对应的数据清 洗规则; 基于调用的数据清洗规则对 数据源中的 每一元数据进行数据清洗, 得到清洗后的第一正 常元数据和第一异常元数据; 基于用户的选择指 令, 显示所有的第一异常元数据; 基于用户的设 置指令, 对当前数据清洗规则进行更新, 得到更 新后的目标数据清洗规则; 基于目标数据清洗规 则, 对所有的第一异常元数据和数据源剩下的元 数据进行数据清洗。 该方法基于数据源中的第一 异常元数据, 对数据清洗规则进行相应的更新, 使得数据清洗规则更贴合于数据源的实际情况, 从而提高数据清洗规则对数据的清洗准确率。 权利要求书2页 说明书10页 附图2页 CN 115203192 A 2022.10.18 CN 115203192 A 1.一种基于可视化数据的清洗方法, 其特 征在于, 包括: 基于采集到的数据源, 调用对应的数据清洗规则; 基于调用的所述数据清洗规则对所述数据源中的每一元数据进行数据清洗, 得到清洗 后的第一 正常元数据和第一异常元 数据; 基于用户的选择指令, 显示所有的第一异常元 数据; 在用户基于所述第 一异常元数据输入的设置指令后, 对调用的所述数据清洗规则进行 更新, 得到更新后的目标 数据清洗规则; 基于所述目标数据清洗规则, 对所有的所述第 一异常元数据和所述数据源剩下的所述 元数据进行 数据清洗 。 2.根据权利要求1所述的基于可视化数据的清洗方法, 其特征在于, 所述得到清洗后的 第一正常元数据和第一异常元 数据之后, 包括: 新建缓冲区, 将所述第一异常元 数据存储至所述缓冲区; 对所述缓冲区中的每一所述第一异常元 数据进行计数, 得到第一异常元 数据的数值; 判断所述第一异常元 数据的数值是否大于第一异常元 数据阈值; 若所述第一异常元数据的数值大于所述第 一异常元数据阈值, 则发出并显示对应的预 警信号, 并暂停利用调用的所述数据清洗规则对剩下的元 数据进行清洗; 若所述第一异常元数据的数值小于第 一异常元数据阈值, 则继续利用调用的所述数据 清洗规则对所述数据源中的下一元 数据进行 数据清洗 。 3.根据权利要求2所述的基于可视化数据的清洗方法, 其特征在于, 所述新建缓冲区, 将所述第一异常元 数据存储至所述缓冲区之前, 包括: 建立占位符, 并将所述占位符与所述第一异常元 数据建立映射关系; 将所述占位符插 入所述数据源中对应位置 。 4.根据权利要求3所述的基于可视化数据的清洗方法, 其特征在于, 所述基于用户的选 择指令, 显示所有的第一异常元 数据之后, 包括: 基于用户的选择指令, 从所述缓冲区中调取对应的第一异常元 数据; 解析当前 所述第一异常元 数据, 获取对应的占位符; 基于得到的所述占位符, 获取 所述占位符上一元 数据和下一元 数据; 判断所述上一元数据的格式是否为占位符格式, 若所述上一元数据的格式为占位符格 式, 则继续获取上上一元数据并进行占位符格式判断, 直到得到为非占位符格式的第一 目 标元数据; 判断所述下一元数据的格式是否为占位符格式, 若所述下一元数据的格式为占位符格 式, 则继续获取下下一元数据并进行占位符格式判断, 直到得到为非占位符格式的第二 目 标元数据; 按照位置顺序将所述第一异常元 数据、 第一目标 元数据和第二目标 元数据显示。 5.根据权利要求4所述的基于可视化数据的清洗方法, 其特征在于, 所述基于所述目标 数据清洗规则, 对所有的所述第一异常元数据和所述数据源剩下的所述元数据进 行数据清 洗, 包括: 遍历所述缓冲区中所有的第 一异常元数据, 利用所述目标数据清洗规则对所述数据源 剩下的所述元数据进 行清洗, 并利用所述目标数据清洗规则对所述缓冲区中所有 所述第一权 利 要 求 书 1/2 页 2 CN 115203192 A 2异常元数据进行清洗, 得到第二 正常元数据和第二异常元 数据; 解析所述第二 正常元数据对应的第一异常元 数据, 并获取对应的占位符位置信息; 基于所述占位符位置信 息, 将所述第 二正常元数据对应的第 一异常元数据返回至所述 数据源, 并删除所述缓冲区中与所述第二 正常元数据对应的第一异常元 数据。 6.根据权利要求5所述的基于可视化数据的清洗方法, 其特征在于, 所述解析所述第 二 正常元数据, 并获取对应的占位符位置信息之前, 包括: 获取首个所述第二 正常元数据对应的第一异常元 数据的时间戳; 基于所述 时间戳建立所述目标数据清洗规则的开始时间戳, 并建立调用的数据清洗规 则的结束时间戳。 7.根据权利要求6所述的基于可视化数据的清洗方法, 其特征在于, 所述基于采集到的 数据源, 调用对应的数据清洗规则, 包括: 在基于用户的分类指令, 将不同版本的数据清洗规则放入对应的数据库中后, 基于采 集到的数据源, 获取 所述数据源的元 数据的时间戳; 获取各数据清洗规则的开始时间戳和结束时间戳, 根据 所述元数据的时间戳与各数据 清洗规则的开始时间戳和结束时间戳的比对结果, 调用对应的数据清洗规则对所述数据源 进行清洗 。 8.一种基于可视化数据的清洗装置, 其特 征在于, 包括: 调用单元, 用于基于采集到的数据源, 调用对应的数据清洗规则; 清洗单元, 用于基于调用的所述数据清洗规则对所述数据源中的每一元数据进行数据 清洗, 得到清洗后的第一 正常元数据和第一异常元 数据; 显示单元, 用于基于用户的选择指令, 显示所有的第一异常元 数据; 更新单元, 用于在用户基于所述第一异常元数据输入的设置指令后, 对调用的所述数 据清洗规则进行 更新, 得到更新后的目标 数据清洗规则; 异常元数据清洗单元, 用于基于所述目标数据清洗规则, 对所有的所述第一异常元数 据和所述数据源剩下的所述元 数据进行 数据清洗 。 9.一种计算机设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7 中任一项所述的基于可视化数据的清洗方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序当被处理器执行时使 所述处理器执行如权利要求 1至7任一项 所述的基 于可视化数据的清洗方法。权 利 要 求 书 2/2 页 3 CN 115203192 A 3

.PDF文档 专利 一种基于可视化数据的清洗方法、装置及相关组件

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于可视化数据的清洗方法、装置及相关组件 第 1 页 专利 一种基于可视化数据的清洗方法、装置及相关组件 第 2 页 专利 一种基于可视化数据的清洗方法、装置及相关组件 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:14:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。