说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210862916.2 (22)申请日 2022.07.21 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 申请人 建信金融科技有限责任公司 (72)发明人 余孟泽  (74)专利代理 机构 上海华诚知识产权代理有限 公司 313 00 专利代理师 徐乐乐 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/194(2020.01) G06F 16/2455(2019.01) G06F 16/22(2019.01) (54)发明名称 倒排索引的构建方法、 名单筛查方法、 装置、 电子设备 (57)摘要 本发明提供一种倒排索引的构建方法、 名单 筛查方法、 装置、 电子设备、 存储介质及程序产 品, 其中, 倒排索引的构建方法包括: 获取目标名 单数据, 所述目标名单数据中包括目标名称队 列; 对所述目标名单数据中的名称进行分词, 得 到预处理名单数据; 对所述预处理名单数据中的 每条名称, 剔除高频词, 得到倒排索引用名单数 据; 基于所述倒排索引用数据, 建立倒排索引。 根 据本发明实施例的倒排索引的构建方法, 在倒排 索引的建立过程中, 对名称进行预处理, 剔除高 频词, 利用剩余的单词建立该名称的倒排索引, 按照该方式建立的倒排索引中, 跟普通词汇的数 量基本在相同的量级, 在利用其进行名单筛查 时, 即便输入的待筛查名称中含有高频词, 也能 实现快速 筛查。 权利要求书3页 说明书13页 附图6页 CN 115221874 A 2022.10.21 CN 115221874 A 1.一种倒排索引的构建方法, 其特 征在于, 包括: 获取目标名单 数据, 所述目标名单 数据中包括目标名称队列; 对所述目标名单 数据中的名称进行分词, 得到预处 理名单数据; 对所述预处理名单数据中的每条名称, 剔除高频词, 得到倒排索引用名单数据, 其中, 所述高频词为在所述目标名单 数据中的出现频次高于词频阈值的词; 基于所述倒排索引用数据, 建立倒排索引, 其中, 所述倒排索引中的名称带有名称标 识, 根据所述名称标识能够确定其所对应的目标名称。 2.根据权利要求1所述的构建方法, 其特征在于, 所述对所述目标名单数据中的名称进 行分词, 得到预处 理名单数据包括: 对所述目标名单 数据中的名称进行分词; 去除分词结果中的非单词字符并统一转成小写, 所述非单词字符包括标点符号、 特殊 字符中的任意 一种或多种; 去除其中的停顿词, 得到所述预处 理名单数据。 3.根据权利要求1所述的构建方法, 其特征在于, 所述对所述预处理名单数据中的每条 名称, 剔除高频词, 得到倒排索引用数据包括: 基于所述预处 理名单数据, 建立高频词库; 对于所述预处理名单数据中的每条名称, 剔除其中属于所述高频词库中的高频词, 得 到所述倒排所引用名单 数据。 4.根据权利要求3所述的构建方法, 其特征在于, 所述基于所述预处理名单数据, 建立 高频词库包括: 对于所述预处理名单数据中的每个单词, 统计其在所述预处理名单数据中的出现频 次; 抽取其中出现频次高于所述词频阈值的词, 建立所述高频词库。 5.根据权利要求3所述的构建方法, 其特征在于, 所述对于所述预处理名单数据中的每 条名单, 剔除其中属于所述高频词库中的高频词, 得到所述倒排所引用名单 数据包括: 确定每条名称中的每 个单词是否属于所述高频词库中的高频词; 计算每条名称中属于所述高频词的单词数量占该名单 所有单词数量的占比, 当所述占比为预定值以下时, 则 删除所有高频词, 当所述占比高于预定值时, 则保留所有单词。 6.根据权利要求1所述的构建方法, 其特征在于, 所述基于所述倒排索引用数据, 建立 所述倒排索引包括: 对于所述倒排索引用数据中的每个名称, 利用Lucence中间件建立其中的单词和该条 名称的倒排索引。 7.一种倒排索引构建装置, 其特 征在于, 包括: 第一获取模块, 用于获取目标名单 数据, 所述目标名单 数据中包括目标名称队列; 预处理模块, 用于对所述目标名单 数据中的名称进行分词, 得到预处 理名单数据; 处理模块, 用于对所述预处理名单数据中的每条名称, 剔除高频词, 得到倒排索引用名 单数据, 其中, 所述高频词为在所述目标名单 数据中的出现频次高于词频阈值的词; 构建模块, 基于所述倒排索引用数据, 建立所述倒排索引, 其中, 所述倒排索引中的名权 利 要 求 书 1/3 页 2 CN 115221874 A 2称带有名称标识, 根据所述名称标识能够确定其所对应的目标名称。 8.一种名单筛查方法, 其特 征在于, 包括: 输入待筛查名称; 基于所述待筛查名称通过倒排索引进行检索, 得到检索结果名称表, 其中, 所述倒排索 引中保存有倒排索引名称队列, 所述倒排索引名称队列中的名称不含高频词, 且所述倒排 索引名称队列中的名称带有名称标识, 通过所述名称标识 能够获取所对应的目标名称, 所 述高频词为出现频率高于词频阈值的单词; 基于所述检索结果名称表以及各名称的名称标识, 确定对应的目标名称结果表; 计算待筛查名称与所述目标名称结果表中的名称相似度; 输出相似度高于相似度阈值的目标名称。 9.根据权利要求8所述的名单筛查方法, 其特征在于, 所述基于所述待筛查名称通过倒 排索引进行检索, 得到检索结果名称表包括: 对所述待筛查名称进行 预处理, 得到待检索用词; 基于所述待检索用词中的每个单词, 通过所述倒排索引 检索包含该单词的名称, 得到 所述检索结果名称表。 10.根据权利要求9所述的名单筛查方法, 其特征在于, 所述对所述待筛查名称进行预 处理, 得到待检索用词包括: 对所述待筛查名称进行分词; 去除分词结果中的非单词字符并统一转成小写, 所述非单词字符包括标点符号、 特殊 字符中的任意 一种或多种; 去除其中的停顿词, 得到所述待检索用词。 11.根据权利要求8所述的名单筛查方法, 其特征在于, 所述计算待筛查名称与所述目 标名称结果表中的名称相似度包括: 计算所述待筛查名称与所述目标名称结果表中每个目标名称的匹配单词串, 基于所述 匹配单词串计算相似度。 12.根据权利要求8所述的名单筛查方法, 其特征在于, 所述输出相似度高于相似度阈 值的目标名称包括: 确定相似度高于相似度阈值的目标名称; 获取该目标名称的关联信 息, 所述关联信 息包括名单发布机构, 国籍, 地址 中的一个或 多个; 输出相似度高于相似度阈值的目标名称及其对应的关联信息 。 13.一种名单筛查装置, 其特 征在于, 包括: 第二获取模块, 用于获取待筛查名称; 检索模块, 用于基于所述待筛查名称通过倒排索引进行检索, 得到检索结果名称表, 其 中, 所述倒排索引中保存有倒排索引名称队列, 所述倒排索引名称队列中的名称不含高频 词, 且所述倒排索引名称队列中的名称带有名称标识, 通过所述名称标识能够获取所对应 的目标名称, 所述高频词为出现频率高于词频阈值的单词; 检索结果处理模块, 用于基于所述检索结果名称表以及各名称的名称标识, 确定对应 的目标名称结果表;权 利 要 求 书 2/3 页 3 CN 115221874 A 3

.PDF文档 专利 倒排索引的构建方法、名单筛查方法、装置、电子设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 倒排索引的构建方法、名单筛查方法、装置、电子设备 第 1 页 专利 倒排索引的构建方法、名单筛查方法、装置、电子设备 第 2 页 专利 倒排索引的构建方法、名单筛查方法、装置、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:16:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。