专利 基于样本重要性过采样的信用风险预测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210989033.8 (22)申请日 2022.08.17 (71)申请人苏州大学地址 215000 江苏省苏州市吴中区石湖西路188号 (72)发明人张莉　魏真　赵雷　王邦军　李映　 (74)专利代理机构苏州市中南伟业知识产权代理事务所(普通合伙) 32257 专利代理师朱振德 (51)Int.Cl. G06Q 40/02(2012.01) G06F 16/215(2019.01) G06K 9/62(2022.01) (54)发明名称基于样本重要性过采样的信用风险预测方法及系统 (57)摘要本发明公开了基于样本重要性过采样的信用风险预测方法，包括以下步骤： S1、对信用数据集合进行预处理； S2、对不良信用数据样本进行去噪； S3、划分不良信用数据样本的概率区间并计算不良信用数据样本被选取作为样本生成点的选择概率； S4、依次根据选择概率选择样本生成点，并根据概率区间来选择不同的样本生成方式，生成新的不良信用数据样本； S5、将新的不良信用数据样本与原信用数据集合中的样本并集作为输入数据训练信用风险预测模型； S6、采用训练后的信用风险预测模型对未知信用数据样本进行风险预测。本发明通过基于样本重要性过采样方法，有效平衡数据数量，提高风险预测准确性。权利要求书3页说明书11页附图1页 CN 115293887 A 2022.11.04 CN 115293887 A 1.一种基于样本重要性过采样的信用风险预测方法，其特征在于：包括以下步骤： S1、对信用数据集合进行预处理，其中，所述信用数据集合包括良好信用数据样本和不良信用数据样本； S2、对不良信用数据样本进行去噪； S3、划分不良信用数据样本的概率区间并计算不良信用数据样本被选取作为样本生成点的选择概率； S4、依次根据选择概率选择样本生成点，并根据概率区间来选择不同的样本生成方式，生成新的不良信用数据样本； S5、将新的不良信用数据样本与原信用数据集合中的样本并集作为输入数据训练信用风险预测模型； S6、采用训练后的信用风险预测模型对未知信用数据样本进行风险预测。 2.如权利要求1所述的基于样本重要性过采样的信用风险预测方法，其特征在于：所述步骤S1具体包括以下步骤：令输入信用数据集合D＝{(xi,yi)|xi∈Rd,yi∈{0,1},i＝1,…,n}， n是信用数据集中样本的总数， d是信用数据集的特征数， xi表示第i条信用数据， yi是标签；若yi＝0，则xi为具有良好信用的样本；若yi＝1，则xi为具有不良信用的样本；令D＝Dmaj∪Dmin，其中， Dmaj为多数类数据集合，即良好信用数据集合,Dmin为少数类数据集合，即不良信用数据集合；令所需新生成的样本点个数为 nnew＝|Dmaj|‑|Dmin|。 3.如权利要求2所述的基于样本重要性过采样的信用风险预测方法，其特征在于：所述步骤S2具体包括以下步骤： S21、对不良信用数据集合Dmin中的每个样本xi∈Dmin在信用数据集合D中寻找其k个近邻样本，计算这k个近邻样本中多数类样本的个数m，若k＝m，则该样本点xi被标记为噪音样本点； S22、从不良信用数据集合Dmin中移除所有标记为噪音样本点的样本，记样本点个数记为nmin。 4.如权利要求3所述的基于样本重要性过采样的信用风险预测方法，其特征在于：划分不良信用数据样本的概率区间具体包括以下步骤：对于不良信用数据集合Dmin，使用分层交叉验证方法将其分成K份，即对c＝1,...,K，重复下面的过程：对所有使用逻辑回归分类器在数据集上训练一个模型，然后根据该模型来预测样本属于不良信用类的概率pi；根据样本属于不良信用类的概率，把样本划分到两个概率区间：高概率区间和低概率区间，即：若则该样本为高概率区间的样本；若则该样本为低概率区间的样本；其中，为序列的中值；对于所得到的高概率区间和低概率区间样本集合，分别记为和其样本点个数权　利　要　求　书 1/3 页 2 CN 115293887 A 2记为和 5.如权利要求4所述的基于样本重要性过采样的信用风险预测方法，其特征在于：计算不良信用数据样本被选取作为样本生成点的选择概率，具体包括以下步骤：对于去噪后的不良信用数据集合Dmin，先计算所有xi在不良信用类中的相对密度：其中，表示样本xi在不良信用类中的第k个近邻，表示样本xi和样本之间的欧氏距离，表示在不良信用类中样本与其第k个同类近邻的距离均值，即计算所有xi在良好信用类中的相对密度：其中， xmaj,i是样本xi在良好信用类中的最近邻， ΔE(xi,xmaj,i)表示样本xi和样本xmaj,i之间的欧氏距离， ζm a j表示不良信用类中样本与其异类最近邻的距离均值，即对于高概率区间样本其样本选择概率定义为：对于低概率区间样本其样本选择概率定义为： 6.如权利要求5所述的基于样本重要性过采样的信用风险预测方法，其特征在于：所述步骤S4具体包括以下步骤： S41、计算在高概率区间和低概率区间上样本的平均概率和和 S42、计算在高概率区间和低概率区间上的样本分别需要生成的新样本个数和权　利　要　求　书 2/3 页 3 CN 115293887 A 3

专利 基于样本重要性过采样的信用风险预测方法及系统

专利基于样本重要性过采样的信用风险预测方法及系统