说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210179886.5 (22)申请日 2022.02.25 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 刘伟乐  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) (54)发明名称 热点事件挖掘方法及装置、 设备和介质 (57)摘要 本公开提供了一种热点事件挖掘方法及装 置、 设备和介质, 涉及数据处理技术领域, 尤其涉 及大数据、 人工智能技术领域。 实现方案为: 获取 多个原始文档; 针对每一个原始文档, 获取该原 始文档所包括的至少一个关键词; 基于所述多个 原始文档各自所包括的多个关键词, 获取至少一 个关键词频繁项集; 基于至少一个 关键词频繁项 集, 从所述多个原始文档中确定多个初筛文档; 至少基于所述多个初筛文档各自所包括的多个 关键词, 构造事件图; 基于 所述事件图, 获取至少 一个事件簇; 以及基于所述至少一个事件簇, 确 定热点事 件列表。 权利要求书3页 说明书14页 附图5页 CN 114547340 A 2022.05.27 CN 114547340 A 1.一种热点事 件挖掘方法, 包括: 获取多个原 始文档; 针对每一个原 始文档, 获取 该原始文档所包括的至少一个关键词; 基于所述多个原 始文档各自所包括的多个关键词, 获取至少一个关键词频繁项集; 基于至少一个关键词频繁项集, 从所述多个原 始文档中确定多个初筛文档; 至少基于所述多个初筛文档各自所包括的多个关键词, 构造事 件图; 基于所述事 件图, 获取至少一个事 件簇; 以及 基于所述至少一个事 件簇, 确定热点事 件列表。 2.根据权利要求1所述的方法, 还 包括: 针对每一个原始文档所包括的每一个关键词, 基于该关键词在该原始文档中的位置 和/或该关键词的词性, 确定该关键词相应的权 重系数, 并且其中, 基于所述多个原始文档各自所包括的多个关键词以及每一个关键词相应的 权重系数, 获取至少一个关键词频繁项集。 3.根据权利要求1或2所述的方法, 其中, 所述构造事 件图包括: 针对所述多个初筛文档中的任意两个初筛文档, 响应于所述任意两个初筛文档各自所 包括的多个关键词满足第一预设条件, 以所述两个初筛文档为顶点建立事 件图的边。 4.根据权利要求3所述的方法, 其中, 所述响应于所述任意两个初筛文档各自所包括的 多个关键词满足第一预设条件, 以所述两个初筛文档为顶点建立事 件图的边包括: 响应于所述任意两个初筛文档各自所包括的多个关键词的交集满足第 二预设条件, 以 所述任意两个初筛文档为顶点建立事 件图的边。 5.根据权利要求4所述的方法, 当每一个初筛文档所包括的每一个关键词具有相应的 权重系数时, 所述响应于所述任意两个初筛文档各自所包括的多个关键词的交集满足第二 预设条件, 以所述两个初筛文档为顶点建立事 件图的边包括: 针对所述任意两个初筛文档所包括的多个关键词的交集, 计算其中所包括的每个关键 词相应的权 重系数的总和; 以及 响应于所述任意两个初筛文档所包括的多个关键词的交集中所包括的每个关键词相 应的权重系数的总和大于预设阈值, 以所述两个初筛文档为顶点建立事 件图的边。 6.根据权利要求1 ‑5中任一项所述的方法, 其中, 所述构造事 件图包括: 针对所述多个初筛文档中的任意两个初筛文档, 响应于所述任意两个初筛文档包含同 一个关键词频繁项集, 以所述两个初筛文档为顶点建立事 件图的边。 7.根据权利要求1 ‑6中任一项所述的方法, 其中, 所述初筛文档包括发布时间信息, 并 且其中, 所述构造事 件图还包括: 响应于所述事件图中所包括的初筛文档的发布时间满足第 三预设条件, 从所述事件图 中删除该初筛文档相应的顶点和边。 8.根据权利要求1 ‑7中任一项所述的方法, 其中, 所述原始文档包括至少一个内容模 块, 并且其中, 所述针对每一个原 始文档, 获取 该原始文档所包括的至少一个关键词包括: 针对所述原始文档中的每一个 内容模块, 基于该内容模块的位置, 确定目标获取策略; 以及 利用所述目标获取 策略, 获取 该内容模块中所包括的至少一个关键词。权 利 要 求 书 1/3 页 2 CN 114547340 A 29.根据权利要求8所述的方法, 其中, 所述至少一个内容模块包括文档标题和文档正 文, 并且其中, 所述针对每一个原 始文档, 获取 该原始文档所包括的至少一个关键词包括: 针对所述原始文档所包括的文档标题, 确定第一获取策略为目标获取策略, 并利用所 述第一获取 策略获取其中所包括的至少一个标题关键词; 针对所述原始文档所包括的文档正文, 确定不同于所述第 一获取策略的第 二获取策略 为目标获取 策略, 并利用所述第二获取 策略获取其中所包括的至少一个正文关键词; 以及 基于所述至少一个标题关键词和所述至少一个正文关键词, 确定该原始文档所包括的 至少一个关键词。 10.根据权利要求1 ‑9中任一项所述的方法, 其中, 所述基于所述事件图, 获取至少一个 事件簇包括: 基于社区发现算法, 获取 所述事件图所包括的至少一个事 件簇。 11.根据权利要求1 ‑10中任一项所述的方法, 其中, 所述基于所述至少一个事件簇, 确 定热点事 件列表包括: 针对所述至少一个事件簇 中的每一个事件簇, 获取该事件簇所包括的至少一个顶点相 应的初筛文档; 以及 基于所述至少一个事件簇 中的每一个事件簇相应的至少一个初筛文档, 确定热点事件 列表。 12.根据权利要求1 1中所述的方法, 其中, 所述初筛文档包括文档热度信息, 并且其中, 基于所述至少一个事件簇中的每一个事件簇相应的至少一个初筛文档的文档热度信 息, 确定热点事 件列表。 13.根据权利要求11或12所述的方法, 当所述初筛文档包括文档热度信息时, 所述方法 还包括: 基于所述至少一个事件簇中的每一个事件簇相应的至少一个初筛文档的文档热度信 息, 对所述至少一个初筛文档进行排序; 以及 基于所述至少一个初筛文档的排序结果, 展示所述热点事 件列表。 14.根据权利要求11或12所述的方法, 当所述初筛文档包括发布时间信息时, 所述方法 还包括: 基于所述至少一个事件簇中的每一个事件簇相应的至少一个初筛文档的发布时间信 息, 对所述至少一个初筛文档进行排序; 以及 基于所述至少一个初筛文档的排序结果, 展示所述热点事 件列表。 15.一种热点事 件挖掘装置, 包括: 第一获取 单元, 被配置用于获取多个原 始文档; 第二获取单元, 被配置用于针对每一个原始文档, 获取该原始文档所包括的至少一个 关键词; 第三获取单元, 被配置用于基于所述多个原始文档各自所包括的多个关键词, 获取至 少一个关键词频繁项集; 第一确定单元, 被配置用于基于至少一个关键词频繁项集, 从所述多个原始文档 中确 定多个初筛文档; 构造单元, 被配置用于基于所述多个初筛文档各自所包括的多个关键词, 构造事 件图;权 利 要 求 书 2/3 页 3 CN 114547340 A 3

.PDF文档 专利 热点事件挖掘方法及装置、设备和介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 热点事件挖掘方法及装置、设备和介质 第 1 页 专利 热点事件挖掘方法及装置、设备和介质 第 2 页 专利 热点事件挖掘方法及装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:59:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。