说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210927102.2 (22)申请日 2022.08.03 (71)申请人 中银金融科技有限公司 地址 200120 上海市浦东 新区(上海)自由 贸易试验区银城中路20 0号4楼408室 (72)发明人 陈鹏  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 周淑娟 (51)Int.Cl. G06Q 40/02(2012.01) G06Q 10/06(2012.01) G06K 9/62(2022.01) (54)发明名称 数据特征的筛选方法及装置 (57)摘要 本发明提供一种数据特征的筛选方法及装 置, 其中方法包括: 获取信贷数据中不含缺失值 的目标数据, 基于逆概率加权法, 确定目标数据 的逆概率权重, 并基于逆概率权重对目标数据进 行加权, 得到目标数据的伪总体数据; 基于随机 森林算法, 确定伪总体数据的缺失值, 并基于缺 失值以及所述伪总体数据, 构建目标数据的全量 数据; 基于核主成分分析算法, 对全量数据进行 特征降维, 并将降维特征作为目标数据筛选后的 特征。 本发明提供的数据特征的筛选方法及装 置, 通过对目标数据中的缺失数据进行填充, 得 到了目标数据的全量数据, 避免了数据损失有效 信息。 基于优化的核函数的核主成分分析算法, 对全量数据进行降维处理, 提升了筛选特征的准 确性。 权利要求书2页 说明书10页 附图3页 CN 115423598 A 2022.12.02 CN 115423598 A 1.一种数据特 征的筛选方法, 其特 征在于, 包括: 获取信贷数据中不含缺失值的目标数据, 基于逆概率加权法, 确定所述目标数据的逆 概率权重, 并基于所述逆概率权重对所述 目标数据进行加权, 得到所述 目标数据的伪总体 数据; 基于随机森林算法, 确定所述伪总体数据的缺失值, 并基于所述缺失值以及所述伪总 体数据, 构建所述目标 数据的全量数据; 基于核主成分分析算法, 对所述全量数据进行特征降维, 得到所述全量数据的降维特 征, 并将所述降维特 征作为所述目标 数据筛选后的特 征。 2.根据权利要求1所述的数据特征的筛选方法, 其特征在于, 所述基于逆概率加权法, 确定所述目标 数据的逆概 率权重, 包括: 基于逆概率加权法, 对所述目标数据进行拟合, 得到所述目标数据的特征概率, 并将所 述特征概率的倒数作为所述逆概 率权重。 3.根据权利要求1所述的数据 特征的筛选方法, 其特征在于, 所述基于核主成分分析算 法, 对所述全量数据进行 特征降维之前, 还 包括: 基于粒子群优化 算法, 确定所述核 主成分分析算法中核函数的特 征值; 调整所述核函数的参数, 直到所述特 征值中最大 特征的贡献率 最大; 将所述贡献率 最大对应的核函数的参数, 作为所述核 主成分分析的核函数的参数。 4.根据权利要求3所述的数据 特征的筛选方法, 其特征在于, 所述最大特征的贡献率是 所述最大特征, 与所述特 征值中所有特 征值总和的比值。 5.根据权利要求1所述的数据 特征的筛选方法, 其特征在于, 所述构建所述目标数据的 全量数据之后, 还 包括: 基于标准分数法, 对所述全量数据进行 标准化处理。 6.根据权利要求1所述的数据 特征的筛选方法, 其特征在于, 所述获取信贷数据中不含 缺失值的目标 数据之后, 还 包括: 根据目标数据中数据的相似度, 删除所述目标数据中相似度高于预设相似度阈值的数 据。 7.一种数据特 征的筛选装置, 其特 征在于, 包括: 逆概率加权处理模块, 用于获取信贷数据中不含缺失值的目标数据, 基于逆概率加权 法, 确定所述目标数据的逆概率权重, 并基于所述逆概率权重对所述目标数据进 行加权, 得 到所述目标 数据的伪总体数据; 数据补全模块, 用于基于随机森林算法, 确定所述伪总体数据的缺失值, 并基于所述缺 失值以及所述伪总体数据, 构建所述目标 数据的全量数据; 特征降维筛选模块, 用于基于核主成分分析算法, 对所述全量数据进行特征降维, 得到 所述全量数据的降维特 征, 并将所述降维特 征作为所述目标 数据筛选后的特 征。 8.一种电子设备, 包括存储器、 处理器以及存储在所述存储器上并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至6 任一项所述数据特 征的筛选方法。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处 理器执行时实现如权利要求1至 6任一项所述数据特 征的筛选方法。权 利 要 求 书 1/2 页 2 CN 115423598 A 210.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至 6任一项所述数据特 征的筛选方法。权 利 要 求 书 2/2 页 3 CN 115423598 A 3

PDF文档 专利 数据特征的筛选方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据特征的筛选方法及装置 第 1 页 专利 数据特征的筛选方法及装置 第 2 页 专利 数据特征的筛选方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。