说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210932689.6 (22)申请日 2022.08.04 (71)申请人 中建电子商务有限责任公司 地址 610000 四川省成 都市青羊区腾飞大 道51号18栋12层1202号 (72)发明人 谷满昌 朱科宇  (74)专利代理 机构 成都春夏知识产权代理事务 所(特殊普通 合伙) 51317 专利代理师 夏琴 (51)Int.Cl. G06K 9/62(2022.01) G06Q 40/02(2012.01) G06N 20/20(2019.01) (54)发明名称 一种基于聚类选择集成的风险控制方法 (57)摘要 本发明公开了一种基于聚类选择集成的风 险控制方法, 属于风险控制技术领域, 包括获取 信贷信息中授信后原始特征的特征值; 采用分箱 算法对原始特征进行计算, 得到分箱特征值; 采 用过采样方法对分箱特征值进行处理, 将处理后 的分箱特征值输入基学习器, 得到基学习器的预 测结果; 将基学习器的预测结果合并为矩阵, 采 用聚类算法计算矩阵, 得到聚类中心; 提取聚类 中心对应的基学习器作为集成学习的第一层学 习器; 采用XGBoost模型或者LightGBM模型作为 集成学习的第二层学习器, 训练得到集成学习器 数据测试。 本发 明较好地解决样 本数量不平衡引 发的过拟合问题, 同时显著将基学习器差异化, 增大基学习器的异质性, 降低计算成本和内存开 销。 权利要求书2页 说明书6页 附图1页 CN 115130619 A 2022.09.30 CN 115130619 A 1.一种基于聚类选择集成的风险控制方法, 其特 征在于, 包括以下步骤: 步骤S1、 获取信贷信息中授信后原 始特征的特征值; 步骤S2、 采用分箱算法对原 始特征进行计算, 得到分箱特 征值; 步骤S3、 采用过采样方法对分箱特征值进行处理, 将处理后的分箱特征值输入基学习 器, 得到基学习器的预测结果; 步骤S4、 将基学习器的预测结果 合并为矩阵, 采用聚类算法计算矩阵, 得到聚类中心; 步骤S5、 提取聚类中心对应的基学习器作为 集成学习的第一层学习器; 步骤S6、 采用XGBoost模型或者LightGBM模型作为集成学习的第二层 学习器, 得到集成 学习器, 然后进行 数据测试。 2.根据权利要求1所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述步 骤S2包括: 步骤S21、 将每个原始特征的特征值由小到大排序进 行分箱, 得到分箱区间; 步骤 S22、 计算每个 分箱区间内的累计好样 本数占总好样本数比率为好占比率、 累计坏样 本数占 总坏样本数比率为坏占比率; 步骤S23、 将好占比率和坏占比率差值绝对值的最大值作为切 点, 基于切点把特征值切分成两部 分; 步骤S2 4、 重复步骤S21至步骤S23, 将切点左右的数据 进一步切分直至箱体数达 到预设阈值, 得到分箱特 征值。 3.根据权利要求2所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 排序分 箱采用等频分箱、 等距分箱或自定义距离分箱的任意 一种。 4.根据权利要求2所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述步 骤S3包括: 步骤S3 1、 对于分箱 特征值中好样本的每一个样本xi{x1, x2, ..., xN}, 以欧氏距离 为标准计算它的k个近邻; 步骤S32、 从k个近邻中选取一个样本xij, 生成随机数τ∈[0, 1], 由 合成新样本xi new; 步骤S33、 将 步骤S32重复进行N次得到样本 集 ; 步骤S34、 好样本扩充得到全体样本xold, 将全体样本xold 与样本集xnew合并得到样 本x, 通过预设的基学习器对样 本x进行训练, 得到基础学习的预测 结果。 5.根据权利要求4所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述步 骤S4包括: 步骤S41、 将多个基学习器的预测结果合并为矩阵M=(Mij)k0×N, 其中k0表示基学习 器数量, Mij表示基学习器对实例的预测结果; 步骤S42、 从矩阵M中随机挑选k0个样本作为初 始聚类中心{c1, c2, ... ci..., ck0}, k0表示基学习器的数量; 步骤S43、 计 算每个实例到聚类 中心的距离, 选择距该实例最近的聚类中心, 并将该实例加入到该聚类中心所在的聚类; 步 骤S44、 如存在实例数目小于cmin的聚类, cmin表示每个聚类所要求的最少样本数目, 则舍去 该聚类, 使聚类中心数量k减少1个并将舍去的聚类中的实例 重新分配给距离最近的聚类; 步骤S45、 重新计算每 个聚类的聚类中心 , Nci为第i个聚类的样本数量, m 表示Mij中的任意一行; 步骤S46、 当前聚类中心数量k≤k0/2时, 计 算每个聚类下实例的方差 σij, 计算每个聚类下的最大方差的分量σi max, 若某个聚类的σi max大于预设的最大方差值,权 利 要 求 书 1/2 页 2 CN 115130619 A 2并且该聚类中实例数量大于等于2cmin, 由公式 分裂成聚类中心为cs+、 cs‑的两个聚类, 使聚类中心数量k增加1个; 当前聚类中心数量k≥2k0时, 计 算任意两个聚类 中心的距离, 将最小距离的两个聚类合并为新的聚类, 使聚类中心数量k减少1个, 直至聚类 中心数量满足k<2k0; 步骤S47、 跳转至步骤S43重复迭代直至达到最大的迭代次数, 终止聚 类算法, 输出选择后的k个聚类中心{c1, c2, ..., ck}。 6.根据权利要求5所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述步 骤S43中, 计算每 个实例到聚类中心的距离的方法为: , 其中m表示Mij中的任意 一行。 7.根据权利要求5所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述步 骤S46中, 采用公式 将最小距离的两个聚类合并为新的聚类, 其中, 为新的聚类的聚类中心, p、 q表示两个聚类, Np、 Nq分别代表p、 q两个聚类的实例个数, cp、 cq分别代表p、 q两个聚类的聚类中心。 8.根据权利要求5所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述基 学习器数量 k0∈[50, 100]。 9.根据权利要求1所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述步 骤S5中, 提取聚类中心所对应的算法作为 集成学习第一层的选择性 算法。 10.根据权利要求1所述的一种基于聚类选择集成的风险控制方法, 其特征在于, 所述 步骤S1中, 原 始特征至少包括供应商基础信息、 供应商行为表现信息和信贷产品相关信息 。权 利 要 求 书 2/2 页 3 CN 115130619 A 3

PDF文档 专利 一种基于聚类选择集成的风险控制方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于聚类选择集成的风险控制方法 第 1 页 专利 一种基于聚类选择集成的风险控制方法 第 2 页 专利 一种基于聚类选择集成的风险控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。