说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210146322.1 (22)申请日 2022.02.17 (71)申请人 深圳市百川数安科技有限公司 地址 518000 广东省深圳市南 山区蛇口街 道渔一社区后海 大道1021号东角头工 业区BC座C 631 (72)发明人 刘堡萱 文成明 (74)专利代理 机构 北京中和立达知识产权代理 有限公司 1 1756 专利代理师 张可 (51)Int.Cl. G06F 16/9536(2019.01) G06F 16/33(2019.01) G06F 16/36(2019.01) (54)发明名称 基于词频统计的互联网社区产品贴评过滤 方法及系统 (57)摘要 本发明公开了一种基于词频统计的互联网 社区产品贴评过滤方法及系统, 其首先基于社区 语料库建立社区语料分词词表; 然后根据分词词 表对社区语料库进行分词, 计算得到每个分词在 社区语料库中的IDF值; 并根据分词词表分别对 每一条贴评进行分词, 根据每一条贴评中的分词 平均IDF值及分词最大IDF值计算得到每一条贴 评的IDF值; 将贴评的IDF值与设定阈值进行比 较, 判断是否为水贴。 本发明基于社区本身的语 料库来筛选固定词表, 得到的分词词表最贴合社 区生态, 同时将分词平均IDF值及分词最大IDF值 应用到互联网社区产品贴评去水中, 能高效的识 别低质量无意义贴评, 且算法简单, 迭代速度快, 且成本低。 权利要求书1页 说明书5页 附图1页 CN 114510647 A 2022.05.17 CN 114510647 A 1.一种基于词频统计的互联网社区产品贴评过 滤方法, 其特 征在于, 包括如下步骤: 基于社区语料库建立社区语料分词 词表; 根据分词 词表对社区语料库进行分词, 计算得到每 个分词在社区语料库中的IDF值; 根据分词词表分别对每一条贴评进行分词, 根据每一条贴评中的分词平均IDF值及分 词最大IDF值计算得到每一条贴评的IDF值; 将贴评的IDF值与设定阈值进行比较, 判断是否为水贴。 2.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法, 其特征在 于, 每个分词在社区语料库中的IDF值的计算公式如下: 3.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法, 其特征在 于, 每一条贴评的IDF值的计算公式如下: 4.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法, 其特征在 于, 根据分词词表对 社区语料库进行分词, 具体包括: 向互联网社区产品系统中载入分词词 表, 并根据分词 词表对社区语料库进行分词。 5.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法, 其特征在 于, 基于社区语料库建立社区语料分词词表, 还包括定期提取社区语料库中的固定词表至 社区语料分词 词表中。 6.一种基于词频统计的互联网社区产品贴评过滤系统, 其特征在于, 包括如下功能模 块: 词表建立模块, 用于基于社区语料库建立社区语料分词 词表; 分词计算模块, 用于根据分词词表对社区语料库进行分词, 计算得到每个分词在社区 语料库中的IDF值; 贴评计算模块, 用于根据分词词表分别对每一条贴评进行分词, 根据每一条贴评中的 分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值; 贴评判断模块, 用于将贴评的IDF值与设定阈值进行比较, 判断是否为水贴。 7.一种服务器, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至5任 一项所述基于词频统计的互联网社区产品贴评过 滤方法的步骤。 8.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至5任一项 所述基于词频统计的互联 网社区产品贴评过 滤方法的步骤。权 利 要 求 书 1/1 页 2 CN 114510647 A 2基于词频统 计的互联网社区产品贴评 过滤方法及系统 技术领域 [0001]本发明涉及网络内容筛选技术领域, 尤其是涉及 一种基于词频统计的互联 网社区 产品贴评过 滤方法及系统。 背景技术 [0002]互联网社区产品的核心在于贴评互动, 然而低质量的帖评会占据版面, 使用户看 不到优质贴评, 从而影响用户体验, 大量低质量无意义的贴评更会影响用户的留存, 因此如 何对低质量无意 义的贴评进行 过滤, 对于社区产品的生态至关重要。 [0003]如今大部分互联 网社区产品并不会对低质量无意义的贴评做筛选和处理, 而是将 主要精力用于筛选高质量的贴评, 将 高质量的贴评排在低质量贴评的前面, 降低用户刷到 低质量贴评的概 率, 从而达 到去水的目的。 [0004]在帖子维度, 很多互联 网社区产品会将帖子内部最新一条评论的发出时间作为索 引对帖子进行倒序排列, 将有最新评论的帖子排在前面, 从而淘汰掉没有用户互动的低质 量无意义帖子, 例如豆瓣小组, 百度贴吧, 天涯等 等。 [0005]在评论维度, 很多互联 网社区产品会基于帖子内评论的互动数对帖子内部评论做 一个排序, 将互动数多的评论排在前面, 从而将互动数低的低质量无意义评论排在后面, 例 如最右, 豆瓣小组等 等。 [0006]少部分互联网社区产品会对低质量贴评做筛选处理, 应用的技术方法大多也是基 于Bert的预训练结合 微调的文本分类方法。 [0007]大部分互联网社区产品的技术方案只有在用户活跃度高的时候有效, 并不能真正 的解决问题。 一旦用户活跃度降低, 或者到了流量低峰的时间, 低质量无意义的贴评就难以 被高质量贴评覆盖, 仍然会占据版面较长的时间。 因此如何主动的筛选出低质量无意义的 贴评至关重要。 [0008]在帖子维度, 使用最近评论回复时间进行排序 固然可以解决一部分问题, 但是并 不能解决根源问题。 如果帖子内的新评论是毫无意义的顶 帖评论, 仍然能够达到将帖子刷 新到首页的目的, 但是使用现有的方案并不能将这类回复识别并加以处 理。 [0009]少部分互联网社区产品的技术方案则是受限于模型的复杂度和标注数据的要求, 往往需要非常高的机器成本用于模型推理, 以及每次迭代都需要非常高的人力成本用于标 注数据和至少一周以上 的时间成本。 但是网络语言具有变化更新快 的特点, 使用这种技术 方案往往难以跟上网络语言的更新速度。 发明内容 [0010]本发明提出一种基于词频统计的互联 网社区产品贴评过滤方法及系统, 以解决上 述问题。 [0011]为达到上述技术目的, 本发明的技术方案第一方面提供一种基于词频统计的互联 网社区产品贴评过 滤方法, 其包括如下步骤:说 明 书 1/5 页 3 CN 114510647 A 3
专利 基于词频统计的互联网社区产品贴评过滤方法及系统
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:02
上传分享
举报
下载
原文档
(319.9 KB)
分享
友情链接
DB14-T 2984—2024 电子政务外网 接入规范 山西省.pdf
GB-T 20252-2014 钴酸锂.pdf
DB61-T 1571-2022 城镇污水处理厂污泥处理处置技术规范 陕西省.pdf
GB 2890-2022 呼吸防护 自吸过滤式防毒面具.pdf
GM-T 0044.3-2016 SM9标识密码算法 第3部分:密钥交换协议.pdf
HS-T 42-2014 海关信息系统运维服务保障等级定级规范.pdf
云计算服务安全评估申报书.pdf
JR-T 0036-2016 再保险数据交换规范.pdf
T-CACM 1437—2023 膝骨关节炎针刀临床诊疗指南.pdf
GB-T 6892-2015 一般工业用铝及铝合金挤压型材.pdf
GB-T 22081-xxxx ISO-IEC27002 2022 信息安全技术 信息安全控制(征求意见稿).pdf
DB22-T 370-2014 建筑逃生缓降器设置技术规范 吉林省.pdf
GB-T 41072-2021 表面化学分析 电子能谱 紫外光电子能谱分析指南.pdf
DB51-T 2829-2021 暴雨洪涝灾害风险评估技术规范 四川省.pdf
T-CRHA 018—2023 人肝胆肿瘤细胞类器官构建、质量控制与保藏操作指南.pdf
2022年能源工作指导意见.pdf
中华人民共和国网络安全法.pdf
GB-T 34088-2017 接入设备节能参数和测试方法 VDSL2系统.pdf
GB-T 39600-2021 人造板及其制品甲醛释放量分级.pdf
电子政务电子认证服务管理办法(试行).pdf
交流群
-->
1
/
3
8
评价文档
赞助2元 点击下载(319.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。