专利 一种检测数据异常值处理方式的自动判别方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210815910.X (22)申请日 2022.07.12 (65)同一申请的已公布的文献号申请公布号 CN 114996318 A (43)申请公布日 2022.09.02 (73)专利权人成都唐源电气股份有限公司地址 610046 四川省成都市武侯区武科西一路9号专利权人西南交通大学 (72)发明人高仕斌　占栋　李想　张金鑫　佘夏威　熊昊睿　黄瀚韬　冯中伟　 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 16/906(2019.01)(56)对比文件 CN 111177217 A,2020.0 5.19 CN 112883340 A,2021.0 6.01 CN 110086860 A,2019.08.02 CN 110808084 A,2020.02.18 CN 114492552 A,202 2.05.13 CN 111737249 A,2020.10.02 CN 103440283 A,2013.12.1 1 CN 106649579 A,2017.0 5.10 CN 113934716 A,202 2.01.14 CN 114660378 A,202 2.06.24 US 2002169735 A1,2002.11.14 审查员陈曦 (54)发明名称一种检测数据异常值处理方式的自动判别方法及系统 (57)摘要本发明公开了一种检测数据异常值处理方式的自动判别方法及系统，通过确定所述每个字段类型；统计每个数据字段中缺失值数据量占所述字段数据总量的比例，判断所述字段是否可用；若所述字段可用则进入下一个判别阶段，否则不进入下一个判别阶段；当类别型字段为可用，且存在缺失值时，将所述类别型字段中缺失值数据量占比与可用性阈值R0比较，根据比较结果判别所述类别型字段缺失值的处理方式；当数值型字段为可用，分别通过计算变异系数值和缺失值数据量占比，对缺失值和异常值的处理方式进行判别。通过将统计学和业务规则相结合的方式，基于数据分析技术，有效提高数据分析的效率，降低大数据分析人员和业务专家的负担。权利要求书2页说明书6页附图1页 CN 114996318 B 2022.11.04 CN 114996318 B 1.一种检测数据异常值处理方式的自动判别方法，其特征在于，包括：根据每个字段数据的相关业务规则，确定所述每个字段类型，所述字段类型包括确定型字段和不确定型字段，其中，确定型字段包括数值型字段、类别型字段、时间戳型字段；统计所述字段中缺失值数量占所述字段数据总量的比例R，判断所述字段是否可用；若所述字段可用则进入下一个判别阶段，否则不进入下一个判别阶段；当类别型字段为可用，且存在缺失值时，将所述类别型字段中缺失值数据量占比R与可用性阈值R0比较，根据比较结果判别所述类别型字段缺失值的处理方式；当数值型字段为可用，分别通过计算变异系数值和缺失值数据量占比，对缺失值和异常值的处理方式进行判别；具体包括：计算所述数值型字段的标准差和算术平均值的比例，得到变异系数CV，根据变异系数的值所在阈值范围，利用对应阈值范围设置的判定方法，判定所述数值型字段的数据异常值；将所述数值型字段中缺失值数据量占比R，并与可用性阈值R0比较，根据比较结果填充所述数值型字段的缺失值。 2.根据权利要求1所述的检测数据异常值处理方式的自动判别方法，其特征在于：根据可用数值型字段的数据，构建数值型字段的标准态数据库。 3.根据权利要求1所述的检测数据异常值处理方式的自动判别方法，其特征在于：如果业务规则库中没有确定所述字段类型，则获取所述字段中每个非缺失值对应的数据类型，其中，所述字段的数据类型包括数值型、类别型和时间戳型；根据非缺失值的三种数据类型对应的数据量，分别计算三种数据类型的数据量占所述字段数据中非缺失值数据总量的比例；根据所述字段中数据类型数据量的占比，判别所述字段类型。 4.根据权利要求3所述的检测数据异常值处理方式的自动判别方法，其特征在于：所述根据所述字段中数据类型数据量的占比，判别所述字段类型，具体包括：以占比最高的数据类型为所述确定型字段的类型；若三种数据类型的占比相等，则所述字段类型为不确定型字段。 5.根据权利要求1所述的检测数据异常值处理方式的自动判别方法，其特征在于：所述判断所述字段是否可用，包括：当缺失值数据量占比R大于设定可用性阈值R0时，则判断该字段不可用。 6.根据权利要求5所述的检测数据异常值处理方式的自动判别方法，其特征在于：所述判断所述字段是否可用，还包括：统计所述确定型字段中另外两种数据类型数量之和占所述字段数据总量的比例；若大于设定可用性阈值R0，则所述确定型字段不可用，否则所述确定型字段可用。 7.根据权利要求6所述的检测数据异常值处理方式的自动判别方法，其特征在于，当所述确定型字段可用时；将所述确定型字段中另外两种数据类型的数据转化为缺失值进行处理。 8.根据权利要求1所述的检测数据异常值处理方式的自动判别方法，其特征在于，所述根据比较结果判别所述类别型字段缺失值的处理方式，包括：当所述类别型字段中缺失值数据量占比R小于N倍可用性阈值R0时，利用所述类别型字段的众数填充缺失值；当所述类别型字段中缺失值数据量占比R大于等于N倍可用性阈值R0时，利用其他字段权　利　要　求　书 1/2 页 2 CN 114996318 B 2的数据构建该类别型字段的Softmax分类模型，利用分类模型对所述类别型字段的分类结果填充所述类别型字段的缺失值。 9.根据权利要求1所述的检测数据异常值处理方式的自动判别方法，其特征在于，所述根据变异系数的值所在阈值范围，利用对应阈值范围设置的判定方法，判定所述数值型字段的数据异常值，具体包括：当变异系数CV值，在CV值＜15%范围时，利用标准态判定数据异常值；当变异系数CV值，在15%≤ CV值＜35%范围时，利用孤立森林算法判定数据异常值；当变异系数CV值，在3 5%≤CV值＜50%范围时，利用聚类算法判定数据异常值；当变异系数CV值，在CV值≥5 0%范围时，利用3σ 方法判定数据异常值。 10.根据权利要求1所述的检测数据异常值处理方式的自动判别方法，其特征在于，当R＜0.1 R0时，则利用该字段非缺失数据的均值填充缺失值；当0.1R0≤R＜0.5R0时，则利用所述数值型字段与检测位置建立插值模型，通过插值法填充缺失值；当R≥0.5R0时，则利用其他字段的数据构建所述数值型字段的回归模型，利用回归模型填充所述数值型字段的缺失值。 11.一种检测异常值处理方式的自动判别系统，其特征在于，包括业务规则判别模块、数据字段类型自动判别模块、数据字段可用性自动判别模块、标准态数据库模块和数据字段处理方式自动判别模块；所述业务规则判别模块，用于设置并存储各个字段的业务规则，其中业务规则包括字段的数据类型、字段取值范围或集合；所述数据字段类型自动判别模块，用于分析业务规则中未明确数据字段的数据类型，以判别所述字段的字段类型，所述字段类型包括确定型字段和不确定型字段，其中所述确定型字段包括数值型字段、类别型字段和时间戳型字段；所述数据字段可用性自动判别模块，用于判别各个数据字段的质量情况，以判断各个数据字段是否具有分析意义；所述标准态数据库模块，用于判别数值型字段的异常值和缺失值处理方式；所述数据字段处理方式自动判别模块，用于判别各个数据字段类型中异常值和/或缺失值的具体处理方式，具体包括：计算所述数值型字段的标准差和算术平均值的比例，得到变异系数CV，根据变异系数的值所在阈值范围，利用对应阈值范围设置的判定方法，判定所述数值型字段的数据异常值；将所述数值型字段中缺失值数据量占比R，并与可用性阈值R0 比较，根据比较结果填充所述数值型字段的缺失值。权　利　要　求　书 2/2 页 3 CN 114996318 B 3

专利 一种检测数据异常值处理方式的自动判别方法及系统

专利一种检测数据异常值处理方式的自动判别方法及系统