说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211107018.2 (22)申请日 2022.09.13 (65)同一申请的已公布的文献号 申请公布号 CN 115186155 A (43)申请公布日 2022.10.14 (73)专利权人 南京百家云科技有限公司 地址 210000 江苏省南京市雨 花台区凤 展 路32号A1幢24楼整层 (72)发明人 张晶 张鑫  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 张文娥 (51)Int.Cl. G06F 16/9035(2019.01) G06F 16/2455(2019.01)(56)对比文件 CN 103970744 A,2014.08.0 6 审查员 王雨宁 (54)发明名称 一种数据过滤方法、 装置、 电子设备及存储 介质 (57)摘要 本申请提供了一种数据过滤方法、 装置、 电 子设备及存储介质, 数据过滤方法包括: 将待过 滤数据输入当前布隆过滤器, 在每隔预设时间下 确定当前布隆过滤器所处理的数据占预设过滤 容量的容量比例; 在确定容量比例达到第一预设 比例阈值时, 启动目标布隆过滤器, 并利用目标 布隆过滤器和当前布隆过滤器, 对还 未经当前布 隆过滤器处理的待过滤数据进行去重过滤; 在确 定容量比例达到第二预设比例阈值时, 停止对当 前布隆过滤器的使用。 本申请将布隆过滤器从单 机使用环 境扩展到多个分布式的使用环境中, 可 以提高处理数据的规模, 同时在当前布隆过滤器 临界假阳率时, 使用双写布隆过滤器的方式, 增 强了对待过滤数据的过滤效果, 提高了过滤的准 确率。 权利要求书2页 说明书12页 附图6页 CN 115186155 B 2022.12.02 CN 115186155 B 1.一种数据过 滤方法, 其特 征在于, 所述数据过 滤方法包括: 将待过滤数据输入当前布隆过滤器, 在使用所述当前布隆过滤器对所述待过滤数据进 行去重过滤的过程中, 在每隔预设时间下确定所述当前布隆过滤器所 处理的数据占预设过 滤容量的容量比例; 在确定所述容量比例达到第一预设比例阈值时, 启动目标布隆过滤器, 并利用所述目 标布隆过滤器和所述当前布隆过滤器, 对还未经所述当前布隆过滤器处理的所述待过滤数 据进行去重过 滤; 在确定所述容量比例达到第二预设比例阈值时, 停止对所述当前布隆过滤器的使用; 所述第二预设比例阈值大于所述第一预设比例阈值, 且所述第二预设比例阈值与预设假阳 率阈值正相关; 根据所述预设过滤容量和所述预设假阳率阈值, 计算哈希阈值和缓存数据库的存储空 间; 其中, 所述哈希阈值用于表征对待过 滤数据的哈希次数; 根据所述哈希阈值和所述缓存数据库的所述存储空间, 生成至少两个布隆过滤器, 并 对每个所述布隆过 滤器进行初始化。 2.根据权利要求1所述的数据过滤方法, 其特征在于, 所述将待过滤数据输入当前布隆 过滤器, 在使用所述当前布隆过滤器对所述待过滤数据进行去重过滤 的过程中, 在每隔预 设时间下确定所述当前布隆过 滤器所处 理的数据占预设过 滤容量的容量比例, 包括: 将所述待过滤数据输入所述当前布隆过滤器, 确定所述待过滤数据对应的哈希值, 以 及所述哈希值存储在所述当前布隆过滤器的缓存数据库的存储位置, 并确定所述存储位置 是否被占用; 在每隔预设时间下, 将未被占用的所述待过滤数据存储至所述缓存数据库, 并根据所 述缓存数据库中的已存储数据, 确定所述当前布隆过滤器所处理的数据占预设过滤容量的 容量比例。 3.根据权利要求2所述的数据过滤方法, 其特征在于, 在所述并确定所述存储位置是否 被占用之后, 所述数据过 滤方法还包括: 若被占用, 则判断所述待过 滤数据中每 个数据的哈希次数 是否达到哈希阈值; 若未达到所述哈希阈值, 则继续对所述待过滤数据进行哈希值计算, 直至所述待过滤 数据的哈希次数达到哈希阈值, 并将 计算过程中的所述哈希值对应的被占用的所述待过滤 数据存储至所述缓存数据库; 根据所述缓存数据库中的已存储数据, 确定所述当前布隆过滤器所处理 的数据占预设 过滤容量的容量比例。 4.根据权利要求1所述的数据过滤方法, 其特征在于, 在使用所述当前布隆过滤器对所 述待过滤数据进行去重过 滤的过程中, 所述数据过 滤方法还包括: 确定已经去重过 滤后的待过 滤数据的数据量; 当所述数据量大于 阈值数量 时, 将已经去重过滤后的所述待过滤数据存储至当前布隆 过滤器的缓存数据库中。 5.一种数据过 滤装置, 其特 征在于, 所述数据过 滤装置包括: 确定模块, 用于将待过滤数据输入当前布隆过滤器, 在使用所述当前布隆过滤器对所 述待过滤数据进 行去重过滤的过程中, 在每隔预设时间下确定所述当前布隆过滤器所 处理权 利 要 求 书 1/2 页 2 CN 115186155 B 2的数据占预设过 滤容量的容量比例; 双写模块, 用于在确定所述容量比例达到第一预设比例阈值时, 启动目标布隆过滤器, 并利用所述目标布隆过滤器和所述当前布隆过滤器, 对还未经所述当前布隆过滤器处理的 所述待过 滤数据进行去重过 滤; 停止模块, 用于在确定所述容量比例达到第二预设比例阈值时, 停止对所述当前布隆 过滤器的使用; 所述第二预设比例阈值大于所述第一预设比例阈值, 且所述第二预设比例 阈值与预设假阳率阈值 正相关; 所述数据过 滤装置还 包括计算模块和初始化模块: 所述计算模块, 用于根据所述预设过滤容量和所述预设假阳率阈值, 计算哈希阈值和 缓存数据库的存 储空间; 其中, 所述哈希阈值用于表征对待过 滤数据的哈希次数; 所述初始化模块, 用于根据所述哈希阈值和所述缓存数据库的所述存储空间, 生成至 少两个布隆过 滤器, 并对每 个所述布隆过 滤器进行初始化。 6.根据权利要求5所述的数据过 滤装置, 其特 征在于, 所述确定模块具体用于: 将所述待过滤数据输入所述当前布隆过滤器, 确定所述待过滤数据对应的哈希值, 以 及所述哈希值存储在所述当前布隆过滤器的缓存数据库的存储位置, 并确定所述存储位置 是否被占用; 在每隔预设时间下, 将未被占用的所述待过滤数据存储至所述缓存数据库, 并根据所 述缓存数据库中的已存储数据, 确定所述当前布隆过滤器所处理的数据占预设过滤容量的 容量比例。 7.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述处 理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总线 通信, 所述机器可读指令被所述处理器运行时执行如上述的权利要求 1至4任一所述的数据 过滤方法的步骤。 8.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器运行时执行如上述的权利要求1至4任一所述的数据过滤方 法的步骤。权 利 要 求 书 2/2 页 3 CN 115186155 B 3

.PDF文档 专利 一种数据过滤方法、装置、电子设备及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据过滤方法、装置、电子设备及存储介质 第 1 页 专利 一种数据过滤方法、装置、电子设备及存储介质 第 2 页 专利 一种数据过滤方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:15:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。