(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210815910.X
(22)申请日 2022.07.12
(65)同一申请的已公布的文献号
申请公布号 CN 114996318 A
(43)申请公布日 2022.09.02
(73)专利权人 成都唐源电气股份有限公司
地址 610046 四川省成 都市武侯区武科西
一路9号
专利权人 西南交通大 学
(72)发明人 高仕斌 占栋 李想 张金鑫
佘夏威 熊昊睿 黄瀚韬 冯中伟
(51)Int.Cl.
G06F 16/2455(2019.01)
G06F 16/2458(2019.01)
G06F 16/906(2019.01)(56)对比文件
CN 111177217 A,2020.0 5.19
CN 112883340 A,2021.0 6.01
CN 110086860 A,2019.08.02
CN 110808084 A,2020.02.18
CN 114492552 A,202 2.05.13
CN 111737249 A,2020.10.02
CN 103440283 A,2013.12.1 1
CN 106649579 A,2017.0 5.10
CN 113934716 A,202 2.01.14
CN 114660378 A,202 2.06.24
US 2002169735 A1,2002.11.14
审查员 陈曦
(54)发明名称
一种检测数据异常值处理方式的自动判别
方法及系统
(57)摘要
本发明公开了一种检测数据异常值处理方
式的自动判别方法及系统, 通过确定所述每个字
段类型; 统计每个数据字段中缺失值数据量占所
述字段数据总量的比例, 判断所述字段是否可
用; 若所述字段可用则进入下一个判别阶段, 否
则不进入下一个判别阶段; 当类别型字段为可
用, 且存在缺失值时, 将所述类别型字段中缺失
值数据量占比与可用性 阈值R0比较, 根据比较结
果判别所述类别型字段缺失值的处理方式; 当数
值型字段为可用, 分别通过计算变异系数值和缺
失值数据量占比, 对缺失值和异常值的处理方式
进行判别。 通过将统计学和业务规则相结合的方
式, 基于数据分析技术, 有效提高数据分析的效
率, 降低大 数据分析 人员和业 务专家的负担 。
权利要求书2页 说明书6页 附图1页
CN 114996318 B
2022.11.04
CN 114996318 B
1.一种检测数据异常值处 理方式的自动判别方法, 其特 征在于, 包括:
根据每个字段数据的相关业务规则, 确定所述每个字段类型, 所述字段类型包括确定
型字段和不确定型字段, 其中, 确定型字段包括数值型字段、 类别型字段、 时间戳型字段;
统计所述字段中缺失值数量占所述字段数据总量的比例R, 判断所述字段是否可用; 若
所述字段 可用则进入下一个判别阶段, 否则不进入下一个判别阶段;
当类别型字段为可用, 且存在缺失值时, 将所述类别型字段中缺失值数据量占比R与可
用性阈值R0比较, 根据比较结果判别所述类别型字段缺失值的处 理方式;
当数值型字段为可用, 分别通过计算变异系数值和缺失值数据量占比, 对缺失值和异
常值的处理方式进 行判别; 具体包括: 计算所述数值型字段的标准差和算术平均值的比例,
得到变异系数CV, 根据变异系数的值所在阈值范围, 利用对应阈值范围设置的判定方法, 判
定所述数值型字段的数据异常值; 将所述数值型字段中缺 失值数据量占比R, 并与可用性阈
值R0比较, 根据比较结果 填充所述数值型字段的缺失值。
2.根据权利要求1所述的检测数据异常值处理方式的自动判别方法, 其特征在于: 根据
可用数值型字段的数据, 构建数值型字段的标准态数据库。
3.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于:
如果业务规则库中没有确定所述字段类型, 则获取所述字段中每个非缺失值对应的数
据类型, 其中, 所述字段的数据类型包括数值型、 类别型和时间戳型;
根据非缺失值的三种数据类型对应的数据量, 分别计算三种数据类型的数据量占所述
字段数据中非缺失值数据总量的比例;
根据所述字段中数据类型 数据量的占比, 判别所述字段类型。
4.根据权利要求3所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于:
所述根据所述字段中数据类型 数据量的占比, 判别所述字段类型, 具体包括:
以占比最高的数据类型为所述确定型字段的类型;
若三种数据类型的占比相等, 则所述字段类型为 不确定型字段。
5.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于:
所述判断所述字段 是否可用, 包括:
当缺失值数据量占比R大于设定可用性阈值R0时, 则判断该字段不可用。
6.根据权利要求5所述的检测数据异常值处理方式的自动判别方法, 其特征在于: 所述
判断所述字段 是否可用, 还 包括:
统计所述确定型字段中另外 两种数据类型 数量之和占所述字段 数据总量的比例;
若大于设定可用性阈值R0, 则所述确定型字段不可用, 否则所述确定型字段 可用。
7.根据权利要求6所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于,
当所述确定型字段 可用时;
将所述确定型字段中另外 两种数据类型的数据转 化为缺失值进行处 理。
8.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于,
所述根据比较结果判别所述类别型字段缺失值的处 理方式, 包括:
当所述类别 型字段中缺失值数据量占比R小于N倍可用性阈值R0时, 利用所述类别型字
段的众数填充缺失值;
当所述类别 型字段中缺失值数据量占比R大于等于N倍可用性阈值R0时, 利用其他字段权 利 要 求 书 1/2 页
2
CN 114996318 B
2的数据构建该类别 型字段的Softmax分类模型, 利用分类模型对所述类别 型字段的分类结
果填充所述类别型字段的缺失值。
9.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于,
所述根据变异系数的值所在阈值范围, 利用对应阈值范围设置的判定方法, 判定所述
数值型字段的数据异常值, 具体包括:
当变异系数CV值, 在CV值<15%范围时, 利用标准态判定数据异常值;
当变异系数CV值, 在15%≤ CV值<35%范围时, 利用孤立森林算法判定数据异常值;
当变异系数CV值, 在3 5%≤CV值<50%范围时, 利用聚类算法判定数据异常值;
当变异系数CV值, 在CV值≥5 0%范围时, 利用3σ 方法判定数据异常值。
10.根据权利要求1所述的检测数据异常值处 理方式的自动判别方法, 其特 征在于,
当R<0.1 R0时, 则利用该字段非缺失数据的均值 填充缺失值;
当0.1R0≤R<0.5R0时, 则利用所述数值型字段与检测 位置建立插值模型, 通过插值法
填充缺失值;
当R≥0.5R0时, 则利用其他字段的数据构建所述数值型字 段的回归模型, 利用回归模型
填充所述数值型字段的缺失值。
11.一种检测异常值处理方式的自动判别系统, 其特征在于, 包括业务规则判别模块、
数据字段类型自动判别模块、 数据字段可用性自动判别模块、 标准态数据库模块和数据字
段处理方式自动判别模块;
所述业务规则判别模块, 用于设置并存储各个字段的业务规则, 其中业务规则包括字
段的数据类型、 字段 取值范围或集 合;
所述数据字段类型自动判别模块, 用于分析业务规则中未明确数据字段的数据类型,
以判别所述字段的字段类型, 所述字段类型包括确定型字段和不确定型字段, 其中所述确
定型字段包括数值型字段、 类别型字段和时间戳型字段;
所述数据字段可用性自动判别模块, 用于判别各个数据字段的质量情况, 以判断各个
数据字段 是否具有分析意 义;
所述标准态数据库模块, 用于判别数值型字段的异常值和缺失值处 理方式;
所述数据字段处理方式自动判别模块, 用于判别各个数据字段类型中异常值和/或缺
失值的具体处理方式, 具体包括: 计算所述数值型字段的标准差和算术平均值的比例, 得到
变异系数CV, 根据变异系数的值所在阈值范围, 利用对应阈值范围设置的判定方法, 判定所
述数值型字段的数据异常值; 将所述数值型字段 中缺失值数据量占比R, 并与可用性阈值R0
比较, 根据比较结果 填充所述数值型字段的缺失值。权 利 要 求 书 2/2 页
3
CN 114996318 B
3
专利 一种检测数据异常值处理方式的自动判别方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:15:44上传分享