说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210815910.X (22)申请日 2022.07.12 (65)同一申请的已公布的文献号 申请公布号 CN 114996318 A (43)申请公布日 2022.09.02 (73)专利权人 成都唐源电气股份有限公司 地址 610046 四川省成 都市武侯区武科西 一路9号 专利权人 西南交通大 学 (72)发明人 高仕斌 占栋 李想 张金鑫  佘夏威 熊昊睿 黄瀚韬 冯中伟  (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 16/906(2019.01)(56)对比文件 CN 111177217 A,2020.0 5.19 CN 112883340 A,2021.0 6.01 CN 110086860 A,2019.08.02 CN 110808084 A,2020.02.18 CN 114492552 A,202 2.05.13 CN 111737249 A,2020.10.02 CN 103440283 A,2013.12.1 1 CN 106649579 A,2017.0 5.10 CN 113934716 A,202 2.01.14 CN 114660378 A,202 2.06.24 US 2002169735 A1,2002.11.14 审查员 陈曦 (54)发明名称 一种检测数据异常值处理方式的自动判别 方法及系统 (57)摘要 本发明公开了一种检测数据异常值处理方 式的自动判别方法及系统, 通过确定所述每个字 段类型; 统计每个数据字段中缺失值数据量占所 述字段数据总量的比例, 判断所述字段是否可 用; 若所述字段可用则进入下一个判别阶段, 否 则不进入下一个判别阶段; 当类别型字段为可 用, 且存在缺失值时, 将所述类别型字段中缺失 值数据量占比与可用性 阈值R0比较, 根据比较结 果判别所述类别型字段缺失值的处理方式; 当数 值型字段为可用, 分别通过计算变异系数值和缺 失值数据量占比, 对缺失值和异常值的处理方式 进行判别。 通过将统计学和业务规则相结合的方 式, 基于数据分析技术, 有效提高数据分析的效 率, 降低大 数据分析 人员和业 务专家的负担 。 权利要求书2页 说明书6页 附图1页 CN 114996318 B 2022.11.04 CN 114996318 B 1.一种检测数据异常值处 理方式的自动判别方法, 其特 征在于, 包括: 根据每个字段数据的相关业务规则, 确定所述每个字段类型, 所述字段类型包括确定 型字段和不确定型字段, 其中, 确定型字段包括数值型字段、 类别型字段、 时间戳型字段; 统计所述字段中缺失值数量占所述字段数据总量的比例R, 判断所述字段是否可用; 若 所述字段 可用则进入下一个判别阶段, 否则不进入下一个判别阶段; 当类别型字段为可用, 且存在缺失值时, 将所述类别型字段中缺失值数据量占比R与可 用性阈值R0比较, 根据比较结果判别所述类别型字段缺失值的处 理方式; 当数值型字段为可用, 分别通过计算变异系数值和缺失值数据量占比, 对缺失值和异 常值的处理方式进 行判别; 具体包括: 计算所述数值型字段的标准差和算术平均值的比例, 得到变异系数CV, 根据变异系数的值所在阈值范围, 利用对应阈值范围设置的判定方法, 判 定所述数值型字段的数据异常值; 将所述数值型字段中缺 失值数据量占比R, 并与可用性阈 值R0比较, 根据比较结果 填充所述数值型字段的缺失值。 2.根据权利要求1所述的检测数据异常值处理方式的自动判别方法, 其特征在于: 根据 可用数值型字段的数据, 构建数值型字段的标准态数据库。 3.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于: 如果业务规则库中没有确定所述字段类型, 则获取所述字段中每个非缺失值对应的数 据类型, 其中, 所述字段的数据类型包括数值型、 类别型和时间戳型; 根据非缺失值的三种数据类型对应的数据量, 分别计算三种数据类型的数据量占所述 字段数据中非缺失值数据总量的比例; 根据所述字段中数据类型 数据量的占比, 判别所述字段类型。 4.根据权利要求3所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于: 所述根据所述字段中数据类型 数据量的占比, 判别所述字段类型, 具体包括: 以占比最高的数据类型为所述确定型字段的类型; 若三种数据类型的占比相等, 则所述字段类型为 不确定型字段。 5.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于: 所述判断所述字段 是否可用, 包括: 当缺失值数据量占比R大于设定可用性阈值R0时, 则判断该字段不可用。 6.根据权利要求5所述的检测数据异常值处理方式的自动判别方法, 其特征在于: 所述 判断所述字段 是否可用, 还 包括: 统计所述确定型字段中另外 两种数据类型 数量之和占所述字段 数据总量的比例; 若大于设定可用性阈值R0, 则所述确定型字段不可用, 否则所述确定型字段 可用。 7.根据权利要求6所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于, 当所述确定型字段 可用时; 将所述确定型字段中另外 两种数据类型的数据转 化为缺失值进行处 理。 8.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于, 所述根据比较结果判别所述类别型字段缺失值的处 理方式, 包括: 当所述类别 型字段中缺失值数据量占比R小于N倍可用性阈值R0时, 利用所述类别型字 段的众数填充缺失值; 当所述类别 型字段中缺失值数据量占比R大于等于N倍可用性阈值R0时, 利用其他字段权 利 要 求 书 1/2 页 2 CN 114996318 B 2的数据构建该类别 型字段的Softmax分类模型, 利用分类模型对所述类别 型字段的分类结 果填充所述类别型字段的缺失值。 9.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于, 所述根据变异系数的值所在阈值范围, 利用对应阈值范围设置的判定方法, 判定所述 数值型字段的数据异常值, 具体包括: 当变异系数CV值, 在CV值<15%范围时, 利用标准态判定数据异常值; 当变异系数CV值, 在15%≤ CV值<35%范围时, 利用孤立森林算法判定数据异常值; 当变异系数CV值, 在3 5%≤CV值<50%范围时, 利用聚类算法判定数据异常值; 当变异系数CV值, 在CV值≥5 0%范围时, 利用3σ 方法判定数据异常值。 10.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于, 当R<0.1 R0时, 则利用该字段非缺失数据的均值 填充缺失值; 当0.1R0≤R<0.5R0时, 则利用所述数值型字段与检测 位置建立插值模型, 通过插值法 填充缺失值; 当R≥0.5R0时, 则利用其他字段的数据构建所述数值型字 段的回归模型, 利用回归模型 填充所述数值型字段的缺失值。 11.一种检测异常值处理方式的自动判别系统, 其特征在于, 包括业务规则判别模块、 数据字段类型自动判别模块、 数据字段可用性自动判别模块、 标准态数据库模块和数据字 段处理方式自动判别模块; 所述业务规则判别模块, 用于设置并存储各个字段的业务规则, 其中业务规则包括字 段的数据类型、 字段 取值范围或集 合; 所述数据字段类型自动判别模块, 用于分析业务规则中未明确数据字段的数据类型, 以判别所述字段的字段类型, 所述字段类型包括确定型字段和不确定型字段, 其中所述确 定型字段包括数值型字段、 类别型字段和时间戳型字段; 所述数据字段可用性自动判别模块, 用于判别各个数据字段的质量情况, 以判断各个 数据字段 是否具有分析意 义; 所述标准态数据库模块, 用于判别数值型字段的异常值和缺失值处 理方式; 所述数据字段处理方式自动判别模块, 用于判别各个数据字段类型中异常值和/或缺 失值的具体处理方式, 具体包括: 计算所述数值型字段的标准差和算术平均值的比例, 得到 变异系数CV, 根据变异系数的值所在阈值范围, 利用对应阈值范围设置的判定方法, 判定所 述数值型字段的数据异常值; 将所述数值型字段 中缺失值数据量占比R, 并与可用性阈值R0 比较, 根据比较结果 填充所述数值型字段的缺失值。权 利 要 求 书 2/2 页 3 CN 114996318 B 3

.PDF文档 专利 一种检测数据异常值处理方式的自动判别方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种检测数据异常值处理方式的自动判别方法及系统 第 1 页 专利 一种检测数据异常值处理方式的自动判别方法及系统 第 2 页 专利 一种检测数据异常值处理方式的自动判别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:15:44上传分享
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。