说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210973020.1 (22)申请日 2022.08.15 (71)申请人 江苏苏宁银行股份有限公司 地址 210000 江苏省南京市 建邺区河西金 融城4号楼 (72)发明人 郑清正  (74)专利代理 机构 南京瑞华腾知识产权代理事 务所(普通 合伙) 32368 专利代理师 徐冲冲 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/2457(2019.01) G06F 16/248(2019.01) G06V 30/416(2022.01) G06V 30/42(2022.01)G06Q 40/02(2012.01) (54)发明名称 一种基于贝叶斯分类的行业编码选 定方法 (57)摘要 本发明公开了一种基于贝叶斯分类的行业 编码选定方法。 该方法包括获取用户提交的相关 申请资料; 从申请资料中提取企业的基本信息; 判断企业是否为新的行业客户, 是则列举出该企 业经营范围内的所有行业, 由客户选定所属行 业, 否则, 通过对企业经营范围的内容解析, 识别 出企业经营范围数据集, 并给出最大概率的四级 行业编码推荐数据选项; 若四级行业编码推荐数 据选项不被用户认可, 扩大推荐范围至选定确认 成功, 或由客户对系统推荐的行业编码进行校验 确认, 无误则落库存储。 本发明解决了跨行业经 营的企业的主行业分类计算问题和存量历史数 据的校验和修复问题, 提升客户对 行业编码的定 位效率和准确度, 逐步提升对新客群的行业编码 分类能力。 权利要求书3页 说明书6页 附图2页 CN 115358309 A 2022.11.18 CN 115358309 A 1.一种基于贝叶斯分类的行业编码选 定方法, 其特 征在于, 包括: 步骤1、 获取用户在申请相关业 务时提交的相关申请资料; 步骤2、 从所述申请资料中提取企业的基本信息; 步骤3、 基于提取的企业的基本信 息判断所述企业是否为新的行业客户, 若为新的行业 客户, 则跳转至步骤6, 否则, 进入步骤4; 步骤4、 通过对企业经营范围的内容解析, 识别出企业经营范围数据集, 并给出最大概 率的四级行业编码推荐数据选项; 步骤5、 若所述四级行业编码推荐数据选项不被用户认可, 则基于企业的经营范围, 给 出过滤后的概率最高的A个四级 行业编码推荐数据选项 供客户选择, 若仍未被用户认可, 则 回退至三级行业编码推荐数据选项供客户选择, 若仍未被用户认可, 则由用户选择继续回 退直至选定确认成功或跳转至步骤6; 步骤6、 若为新的行业客户, 则列举出该企业经营范围内的所有行业, 由客户选定所属 行业, 否则由客户对系统推荐的行业编码进行 校验确认; 步骤7、 用户确认选定或校验确认的行业编码无误后, 通过整个业务办理流程后 落库存 储。 2.根据权利要求1所述的一种基于贝叶斯分类的行业编码选定方法, 其特征在于, 所述 申请资料包括营业执照, 所述 步骤2基于OCR解析 营业执照内容。 3.根据权利要求1所述的一种基于贝叶斯分类的行业编码选定方法, 其特征在于, 所述 步骤4具体包括: 将当前历史数据中的每 条经营范围记录作数据清洗提取后, 统计第i种经营范围记录ri 在行内的指定类别细项的统计数量 计算第i种经营范围记录ri在当前数据集下的先验 概率p(ri)为: 其中, M代 表经营记录细项的总数; 统计当前历史数据中的每个经营四级行业编码的数量, 将出现的频率映射为 四级分类 编码的概 率, 具体如下: 其中, N代表四级行业编码的总数, 代表第i种行业编码hi在当前数据集的出现次 数; 根据企业经营范围的内容解析结果给定所述企业的经营范围r1, r2,…, rn, 其中, n为大 于2的自然数; 在行业编码固定的情况下, 计算当前给定的经营范围r1, r2, ..., rn的条件概率p(rj| hi), 其中j∈[1, . .., n]; 根据当前给定的经营范围r1, r2, ..., rn的条件概率p(rj|hi)计算行业编码的概率p(hi| r1, r2, ..., rn), 具体如下:权 利 要 求 书 1/3 页 2 CN 115358309 A 2其中, p(r1, r2, ..., rn|hi)为在确认行业编 码为hi的情况下, r1, r2, ..., rn这个组合的条 件概率, p(r1, r2, ..., rn|hl)为在确认行业编码为hl的情况下, r1, r2, ..., rn这个组合的条件 概率, p(hl)为第l种经 营范围的四级分类编码的概 率, l∈[1, . .., N]; 计算argmax(p(hi|r1, r2, ..., rn)), 并作为最大概率的四级行业编码推荐数据选项, argmax(.)为 求自变量 最大的函数。 4.根据权利要求3所述的一种基于贝叶斯分类的行业编码选定方法, 其特征在于, 所述 数据清洗提取的方式具体如下: 基于“一般经营项目”和“特许经营项目”将经营范围分解成若干个大类; 将“;”作为分隔符, 分解出每个经营项目, 同时去除掉 符号, 形成经营范围列表 busi_scope_l ist。 5.根据权利要求3所述的一种基于贝叶斯分类的行业编码选定方法, 其特征在于, 所述 当前给定的经 营范围r1, r2, ..., rn的条件概 率p(rj|hi)的计算方式如下: 提取每种行业编码hi关联的所有企业的经营范围集合{r1, r2, ..., rm}, 其中, m为大于2 的自然数; 统计每个经营范围rk的频率 并计算经 营范围rk的条件概 率p(rk|hi)为: 其中, rk∈{r1, r2, ..., rm}; 查找所述企业的经 营范围子集的概 率集合S, 其中, S∈{r1, r2, ..., rm}; 重复执行直至所有行业编码都完成遍历。 6.根据权利要求3所述的一种基于贝叶斯分类的行业编码选定方法, 其特征在于, 在计 算出行业编码的概率p(hi|r1, r2, ..., rn)后, 将hi的概率进行归纳整理成三级行业编码概率 具体如下: 其中, 为第i类四级行业编码对应的三级行业编码概 率; 对所述三级行业编码概率 累加构建二级行业编码概率 具体如下: 其中, 为第i类四级行业编码对应的二级行业编码概 率。 7.根据权利要求3所述的一种基于贝叶斯分类的行业编码选定方法, 其特征在于, 判断 所述企业是否为 新的行业 客户的方式具体如下:权 利 要 求 书 2/3 页 3 CN 115358309 A 3

PDF文档 专利 一种基于贝叶斯分类的行业编码选定方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于贝叶斯分类的行业编码选定方法 第 1 页 专利 一种基于贝叶斯分类的行业编码选定方法 第 2 页 专利 一种基于贝叶斯分类的行业编码选定方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。