说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211107018.2 (22)申请日 2022.09.13 (65)同一申请的已公布的文献号 申请公布号 CN 115186155 A (43)申请公布日 2022.10.14 (73)专利权人 南京百家云科技有限公司 地址 210000 江苏省南京市雨 花台区凤 展 路32号A1幢24楼整层 (72)发明人 张晶 张鑫 (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 张文娥 (51)Int.Cl. G06F 16/9035(2019.01) G06F 16/2455(2019.01)(56)对比文件 CN 103970744 A,2014.08.0 6 审查员 王雨宁 (54)发明名称 一种数据过滤方法、 装置、 电子设备及存储 介质 (57)摘要 本申请提供了一种数据过滤方法、 装置、 电 子设备及存储介质, 数据过滤方法包括: 将待过 滤数据输入当前布隆过滤器, 在每隔预设时间下 确定当前布隆过滤器所处理的数据占预设过滤 容量的容量比例; 在确定容量比例达到第一预设 比例阈值时, 启动目标布隆过滤器, 并利用目标 布隆过滤器和当前布隆过滤器, 对还 未经当前布 隆过滤器处理的待过滤数据进行去重过滤; 在确 定容量比例达到第二预设比例阈值时, 停止对当 前布隆过滤器的使用。 本申请将布隆过滤器从单 机使用环 境扩展到多个分布式的使用环境中, 可 以提高处理数据的规模, 同时在当前布隆过滤器 临界假阳率时, 使用双写布隆过滤器的方式, 增 强了对待过滤数据的过滤效果, 提高了过滤的准 确率。 权利要求书2页 说明书12页 附图6页 CN 115186155 B 2022.12.02 CN 115186155 B 1.一种数据过 滤方法, 其特 征在于, 所述数据过 滤方法包括: 将待过滤数据输入当前布隆过滤器, 在使用所述当前布隆过滤器对所述待过滤数据进 行去重过滤的过程中, 在每隔预设时间下确定所述当前布隆过滤器所 处理的数据占预设过 滤容量的容量比例; 在确定所述容量比例达到第一预设比例阈值时, 启动目标布隆过滤器, 并利用所述目 标布隆过滤器和所述当前布隆过滤器, 对还未经所述当前布隆过滤器处理的所述待过滤数 据进行去重过 滤; 在确定所述容量比例达到第二预设比例阈值时, 停止对所述当前布隆过滤器的使用; 所述第二预设比例阈值大于所述第一预设比例阈值, 且所述第二预设比例阈值与预设假阳 率阈值正相关; 根据所述预设过滤容量和所述预设假阳率阈值, 计算哈希阈值和缓存数据库的存储空 间; 其中, 所述哈希阈值用于表征对待过 滤数据的哈希次数; 根据所述哈希阈值和所述缓存数据库的所述存储空间, 生成至少两个布隆过滤器, 并 对每个所述布隆过 滤器进行初始化。 2.根据权利要求1所述的数据过滤方法, 其特征在于, 所述将待过滤数据输入当前布隆 过滤器, 在使用所述当前布隆过滤器对所述待过滤数据进行去重过滤 的过程中, 在每隔预 设时间下确定所述当前布隆过 滤器所处 理的数据占预设过 滤容量的容量比例, 包括: 将所述待过滤数据输入所述当前布隆过滤器, 确定所述待过滤数据对应的哈希值, 以 及所述哈希值存储在所述当前布隆过滤器的缓存数据库的存储位置, 并确定所述存储位置 是否被占用; 在每隔预设时间下, 将未被占用的所述待过滤数据存储至所述缓存数据库, 并根据所 述缓存数据库中的已存储数据, 确定所述当前布隆过滤器所处理的数据占预设过滤容量的 容量比例。 3.根据权利要求2所述的数据过滤方法, 其特征在于, 在所述并确定所述存储位置是否 被占用之后, 所述数据过 滤方法还包括: 若被占用, 则判断所述待过 滤数据中每 个数据的哈希次数 是否达到哈希阈值; 若未达到所述哈希阈值, 则继续对所述待过滤数据进行哈希值计算, 直至所述待过滤 数据的哈希次数达到哈希阈值, 并将 计算过程中的所述哈希值对应的被占用的所述待过滤 数据存储至所述缓存数据库; 根据所述缓存数据库中的已存储数据, 确定所述当前布隆过滤器所处理 的数据占预设 过滤容量的容量比例。 4.根据权利要求1所述的数据过滤方法, 其特征在于, 在使用所述当前布隆过滤器对所 述待过滤数据进行去重过 滤的过程中, 所述数据过 滤方法还包括: 确定已经去重过 滤后的待过 滤数据的数据量; 当所述数据量大于 阈值数量 时, 将已经去重过滤后的所述待过滤数据存储至当前布隆 过滤器的缓存数据库中。 5.一种数据过 滤装置, 其特 征在于, 所述数据过 滤装置包括: 确定模块, 用于将待过滤数据输入当前布隆过滤器, 在使用所述当前布隆过滤器对所 述待过滤数据进 行去重过滤的过程中, 在每隔预设时间下确定所述当前布隆过滤器所 处理权 利 要 求 书 1/2 页 2 CN 115186155 B 2的数据占预设过 滤容量的容量比例; 双写模块, 用于在确定所述容量比例达到第一预设比例阈值时, 启动目标布隆过滤器, 并利用所述目标布隆过滤器和所述当前布隆过滤器, 对还未经所述当前布隆过滤器处理的 所述待过 滤数据进行去重过 滤; 停止模块, 用于在确定所述容量比例达到第二预设比例阈值时, 停止对所述当前布隆 过滤器的使用; 所述第二预设比例阈值大于所述第一预设比例阈值, 且所述第二预设比例 阈值与预设假阳率阈值 正相关; 所述数据过 滤装置还 包括计算模块和初始化模块: 所述计算模块, 用于根据所述预设过滤容量和所述预设假阳率阈值, 计算哈希阈值和 缓存数据库的存 储空间; 其中, 所述哈希阈值用于表征对待过 滤数据的哈希次数; 所述初始化模块, 用于根据所述哈希阈值和所述缓存数据库的所述存储空间, 生成至 少两个布隆过 滤器, 并对每 个所述布隆过 滤器进行初始化。 6.根据权利要求5所述的数据过 滤装置, 其特 征在于, 所述确定模块具体用于: 将所述待过滤数据输入所述当前布隆过滤器, 确定所述待过滤数据对应的哈希值, 以 及所述哈希值存储在所述当前布隆过滤器的缓存数据库的存储位置, 并确定所述存储位置 是否被占用; 在每隔预设时间下, 将未被占用的所述待过滤数据存储至所述缓存数据库, 并根据所 述缓存数据库中的已存储数据, 确定所述当前布隆过滤器所处理的数据占预设过滤容量的 容量比例。 7.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述处 理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总线 通信, 所述机器可读指令被所述处理器运行时执行如上述的权利要求 1至4任一所述的数据 过滤方法的步骤。 8.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器运行时执行如上述的权利要求1至4任一所述的数据过滤方 法的步骤。权 利 要 求 书 2/2 页 3 CN 115186155 B 3
专利 一种数据过滤方法、装置、电子设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 17:15:36
上传分享
举报
下载
原文档
(764.4 KB)
分享
友情链接
专利 一种基于SOAR的防御自动化流程编排方法.PDF
GB-T 42622-2023 增材制造 激光定向能量沉积用钛及钛合金粉末.pdf
GB 40050-2021 网络关键设备安全通用要求.pdf
T-ZQTX 002—2023 章丘铁锅.pdf
GB-T 27910-2011 金融服务 信息安全指南.pdf
法律法规 重庆市行政事业性收费管理条例.pdf
阿里云 云原生架构白皮书.pdf
GB-T 36632-2018 信息安全技术 公民网络电子身份标识格式规范.pdf
GB-T 38542-2020 信息安全技术 基于生物特征识别的移动智能终端身份鉴别技术框架.pdf
T-CACM 1230—2019 中医内科临床诊疗指南 慢性咳嗽.pdf
炼石数据安全方案-60页通用行业-V7.4.2.pdf
GB-T 2386-2014 染料及染料中间体 水分的测定.pdf
GB-T 33018.3-2016 炭素企业节能技术规范 第3部分:机械加工.pdf
ISO 24613-6 2024 Language resource management Lexical markup framework (LMF) Part 6 Syntax and semantics.pdf
T-CI 126—2023 高寒草地碳储量及碳汇核算技术导则.pdf
GB-T 42107-2022 国家科技重大专项文件归档与档案管理规范.pdf
GB 25527-2010 矿用混装炸药车 安全要求.pdf
GB-T 15166.1-2019 高压交流熔断器 第1部分:术语.pdf
信创安全典型行业应用专题报告.pdf
GB-T 31349-2014 节能量测量和验证技术要求 中央空调系统.pdf
交流群
-->
1
/
3
21
评价文档
赞助2元 点击下载(764.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。