(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210989033.8
(22)申请日 2022.08.17
(71)申请人 苏州大学
地址 215000 江苏省苏州市吴中区石湖西
路188号
(72)发明人 张莉 魏真 赵雷 王邦军 李映
(74)专利代理 机构 苏州市中南伟业知识产权代
理事务所(普通 合伙) 32257
专利代理师 朱振德
(51)Int.Cl.
G06Q 40/02(2012.01)
G06F 16/215(2019.01)
G06K 9/62(2022.01)
(54)发明名称
基于样本重要性过采样的信用风险预测方
法及系统
(57)摘要
本发明公开了基于样本重要性过采样的信
用风险预测方法, 包括以下步骤: S1、 对信用数据
集合进行预处理; S2、 对不良信用数据样本进行
去噪; S3、 划分不良信用数据样本的概率区间并
计算不良信用数据样本被选取作为样本生成点
的选择概率; S4、 依次根据选择概率选择样本生
成点, 并根据概率区间来选择不同的样本生成方
式, 生成新的不良信用数据样本; S5、 将新的不良
信用数据样本与原信用数据集合中的样本并集
作为输入数据训练信用风险预测模型; S6、 采用
训练后的信用风险预测模型对未知信用数据样
本进行风险预测。 本发明通过基于样本重要性过
采样方法, 有效平衡数据数量, 提高风险预测准
确性。
权利要求书3页 说明书11页 附图1页
CN 115293887 A
2022.11.04
CN 115293887 A
1.一种基于样本 重要性过采样的信用风险预测方法, 其特 征在于: 包括以下步骤:
S1、 对信用数据集合进行预处理, 其中, 所述信用数据集合包括良好信用数据样本和不
良信用数据样本;
S2、 对不良信用数据样本进行去噪;
S3、 划分不良信用数据样本的概率区间并计算不良信用数据样本被选取作为样本生成
点的选择概 率;
S4、 依次根据选择概率选择样本生成点, 并根据概率区间来选择不同的样本生成方式,
生成新的不良信用数据样本;
S5、 将新的不良信用数据样本与原信用数据集合中的样本并集作为输入数据训练信用
风险预测模型;
S6、 采用训练后的信用风险预测模型对未知信用数据样本进行风险预测。
2.如权利要求1所述的基于样本重要性过采样的信用风险预测方法, 其特征在于: 所述
步骤S1具体包括以下步骤:
令输入信用数据集合D={(xi,yi)|xi∈Rd,yi∈{0,1},i=1,…,n}, n是信用数据集中样
本的总数, d是信用数据集的特 征数, xi表示第i条信用数据, yi是标签;
若yi=0, 则xi为具有良好信用的样本; 若yi=1, 则xi为具有不良信用的样本;
令D=Dmaj∪Dmin, 其中, Dmaj为多数类数据集合, 即良好信用数据集合,Dmin为少数类数据
集合, 即不良信用数据集 合;
令所需新 生成的样本点个数为 nnew=|Dmaj|‑|Dmin|。
3.如权利要求2所述的基于样本重要性过采样的信用风险预测方法, 其特征在于: 所述
步骤S2具体包括以下步骤:
S21、 对不良信用数据集合Dmin中的每个样本xi∈Dmin在信用数据集合D中寻找其k个近邻
样本, 计算这k个近邻样本中多数类样本的个数m, 若k=m, 则该样本点xi被标记为噪音样本
点;
S22、 从不良信用数据集合Dmin中移除所有标记为噪音样本点的样本, 记样本点个数记
为nmin。
4.如权利要求3所述的基于样本重要性过采样的信用风险预测方法, 其特征在于: 划分
不良信用数据样本的概 率区间具体包括以下步骤:
对于不良信用数据集 合Dmin, 使用分层交叉验证方法将其分成K份, 即
对c=1,...,K, 重复下面的过程: 对所有
使用逻辑回归分类器在数据集
上训练一个模型, 然后根据该模型来预测样本
属于不良信用类
的概率pi;
根据样本属于不良信用类的概率, 把样本划分到两个概率区间: 高概率区间和低概率
区间, 即: 若
则该样本为高概率区间的样本; 若
则该样本为低概率区间的样
本; 其中,
为
序列的中值;
对于所得到的高概率区间和低概率区间样本集合, 分别记为
和
其样本点个 数权 利 要 求 书 1/3 页
2
CN 115293887 A
2记为
和
5.如权利要求4所述的基于样本重要性过采样的信用风险预测方法, 其特征在于: 计算
不良信用数据样本被选取作为样本生成点的选择概 率, 具体包括以下步骤:
对于去噪后的不良信用数据集 合Dmin, 先计算所有xi在不良信用类中的相对密度:
其中,
表示样本xi在不良信用类中的第k个近邻,
表示样本xi和样本
之间的欧氏距离,
表示在不良信用类中样本与其第k个同类近邻的距离均值, 即
计算所有xi在良好信用类中的相对密度:
其中, xmaj,i是样本xi在良好信用类中的最近邻, ΔE(xi,xmaj,i)表示样本xi和样本xmaj,i之
间的欧氏 距离 , ζm a j表示不良 信用类中样本与其异类最近邻的距离均值 , 即
对于高概 率区间样本
其样本选择概率定义为:
对于低概 率区间样本
其样本选择概率定义为:
6.如权利要求5所述的基于样本重要性过采样的信用风险预测方法, 其特征在于: 所述
步骤S4具体包括以下步骤:
S41、 计算在高概 率区间和低概 率区间上样本的平均概 率
和
和
S42、 计算在高概率区间和低概率区间上的样本分别需要生成的新样本个数
和
权 利 要 求 书 2/3 页
3
CN 115293887 A
3
专利 基于样本重要性过采样的信用风险预测方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:15:51上传分享