(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210909324.1
(22)申请日 2022.07.29
(71)申请人 深圳微众信用科技股份有限公司
地址 518000 广东省深圳市南 山区粤海街
道深圳国际软件园一期 8栋202室
(72)发明人 薛永营 黄艇 赵彦晖 耿心伟
曾源
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 邱群
(51)Int.Cl.
G06Q 40/02(2012.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于信用变量的信用标签确定方法及
相关产品
(57)摘要
本申请提供一种基于信用变量的信用标签
确定方法及相关产品, 其中方法的实现包括: 获
取T个客户样本, T个客户样本中每个客户样本包
括至少一个目标信用变量, 信用变量用于表征对
应客户样本的单维度信用水平, 且T个客户样本
中的M个第一客户样本包括信用标签、 N个第二客
户样本不包括信用标签, 信用标签用于表征对应
客户样本的总体信用水平; 根据M个第一客户样
本与N个第二客户样本的信用变量, 确定N个第二
客户样本中每个第二客户样本的信用标签。 采用
本申请实施例的方法, 通过包括信用标签和 信用
变量的第一客户样本, 确定出不包括信用标签、
但包括相同信用变量的第二客户样本的信用标
签, 实现了包括信用标签的客户样本数量的扩
充。
权利要求书3页 说明书16页 附图3页
CN 115393032 A
2022.11.25
CN 115393032 A
1.一种基于信用变量的信用标签确定方法, 其特 征在于, 所述方法包括:
获取T个客户样本, 所述T个客户样本中每个客户样本包括至少一个目标信用变量, 所
述信用变量用于表征对应客户样本的单维度信用水平, 且所述T个客户样本中的M个第一客
户样本包括信用标签、 N个第二客户样本不包括所述信用标签, 所述信用标签用于表征对应
客户样本的总体信用水平;
根据所述M个第一客户样本与所述N个第二客户样本的信用变量, 确定所述N个第二客
户样本中每 个第二客户样本的信用标签。
2.根据权利要求1所述的方法, 其特征在于, 所述至少一个目标信用变量的确定方法如
下:
获取所述M个第一 客户样本中包括的多个参 考信用变量;
基于所述多个参考信用变量中每个参考信用变量对所述M个第一客户样本进行分箱,
得到多个分箱结果;
获取所述多个分箱结果中每个分箱结果对应的证据权重WOE值, 所述WOE值用于表征对
应分箱结果中的第一标签客户样本对应的数量和第二标签客户样本对应的数量之间的比
值的对数;
确定与对应分箱结果的WOE值之间满足单调性条件的至少一个参考信用变量为所述至
少一个目标信用变量。
3.根据权利要求2所述的方法, 其特征在于, 在所述确定与对应分箱结果的WOE值之间
满足单调性条件的至少一个参 考信用变量之后, 所述方法还 包括:
获取所述每个分箱结果对应的信息价值IV值, 所述IV值用于表征对应参考信用变量对
客户样本的信用标签的预测准确度;
根据所述每个分箱结果对应的WOE值, 确定所述至少一个参考信用变量中的第一参考
信用变量与除所述第一 参考信用变量之外的其 他参考信用变量之间的相关性;
将与所述第 一参考信用变量之间的相关性大于或等于预设相关性、 且对应IV值小于或
等于预设数值的其他参考信用变量进 行剔除, 将剩余的其他参考信用变量确定为所述第一
参考信用变量, 重复所述将与所述第一参考信用变量之间的相关性大于或等于预设相关
性、 且对应IV值小于预设数值的其他参考信用变量进行剔除的过程, 直到确定出参考信用
变量群组, 所述参考信用变量群组中包括的参考信用变量之间的IV值都大于所述预设数
值;
确定所述 参考信用变量群组中包括的参 考信用变量 为所述至少一个目标信用变量。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述M个第一客户样本与所述N个
第二客户样本的信用变量, 确定所述N个第二客户样本中每个第二客户样本的信用标签, 包
括:
确定所述M个第 一客户样本中每个第 一客户样本包括的至少一个目标信用变量中每个
目标信用变量对应的IV值;
根据所述每个第 一客户样本包括的所述每个目标信用变量对应的数值大小、 IV值以及
所述每个第二客户样本包括的所述每个目标信用变量对应的数值大小, 构建T*T欧氏距离
矩阵;
根据所述T*T欧氏距离矩阵, 确定所述N个第二客户样本中每个第 二客户样本的信用标权 利 要 求 书 1/3 页
2
CN 115393032 A
2签。
5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述M个第一客户样本中包括M1
个信用标签为第一标签的客户样本和M2个信用标签为第二标签的客户样本, 所述第一标签
对应客户样本的总体信用水平高于所述第二标签对应客户样本, 在所述根据所述M个第一
客户样本与所述N个第二客户样本的信用变量, 确定所述N个第二客户样本中每个第二客户
样本的信用标签之前, 所述方法还 包括:
确定所述第一标签客户样本对应的数量M1和所述第二标签客户样本对应的数量M2之
间的比值是否大于预设比值;
若所述第一标签客户样本对应的数量M1和所述第二标签客户样本对应的数量M2之间
的比值大于所述预设比值, 则对所述第二标签客户样本进行过采样处理, 得到过采样后的
M3个第二标签客户样本, 其中, 所述M 3>M2;
所述根据所述M个第一客户样本与所述N个第二客户样本的信用变量, 确定所述N个第
二客户样本中每 个第二客户样本的信用标签, 包括:
根据M’个第一客户样本与所述N个第二客户样本的信用变量, 确定所述N个第二客户样
本中每个第二客户样本的信用标签, 其中, 所述M ’=M1+M3。
6.根据权利要求4所述的方法, 其特征在于, 所述根据所述每个第 一客户样本包括的所
述每个目标信用变量对应的数值大小、 IV值以及所述每个第二客户样本包括的所述每个目
标信用变量对应的数值大小, 构建T*T欧氏距离矩阵, 包括:
确定所述每 个目标信用变量对应的IV值 为所述每 个目标信用变量对应的距离 权重;
根据所述每个第 一客户样本包括的所述每个目标信用变量对应的数值大小、 所述每个
第二客户样本包括的所述每个目标信用变量对应的数值大小以及所述每个目标信用变量
对应的距离权重, 计算出所述每个客户样本与所述每个客户样本之 间对应的所述每个目标
信用变量对应的变量距离因子;
根据所述每个目标信用变量对应的变量距离因子, 计算出所述每个客户样本与所述每
个客户样本之间的欧氏距离, 得到所述T*T欧氏距离矩阵。
7.根据权利要求6所述的方法, 其特征在于, 所述根据所述T*T欧氏距离矩阵, 确定所述
N个第二客户样本中每 个第二客户样本的信用标签, 包括:
构建初始相似度矩阵, 并确定在所述初始相似度矩阵中所述每个客户样本与 所述每个
客户样本之间的初始相似度为1/T;
对所述T*T欧氏距离矩阵中大于预设距离的欧氏距离进行剔除, 得到修正后的T*T欧氏
距离矩阵;
根据所述修正后的T*T欧氏距离矩阵对所述初始相似度矩阵中的每个客户样本与所述
每个客户样本之间的初始相似度进行调整, 其中欧氏距离越小则所述初始相似度增值越
大, 得到目标相似度矩阵;
根据所述目标相似度矩阵确定所述N个第二客户样本中每个第二客户样本的信用标
签。
8.根据权利要求6或7 所述的方法, 其特 征在于, 所述方法还 包括:
获取目标信用评估模型对应的变量权重考量表, 所述变量权重考量表包括至少一个信
用变量对于所述目标信用评估模型对应的目标贷款业务的信用权重系数, 所述目标信用评权 利 要 求 书 2/3 页
3
CN 115393032 A
3
专利 一种基于信用变量的信用标签确定方法及相关产品
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:16:00上传分享