说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210295562.8 (22)申请日 2022.03.23 (71)申请人 拉扎斯网络科技 (上海) 有限公司 地址 200333 上海市普陀区真北路78 8号 507室 (72)发明人 许春媛 夏威 贾伟 杨睿昕  张安洁 陈梓健 汪利飞  (74)专利代理 机构 深圳市立智方成知识产权代 理事务所(普通 合伙) 44468 专利代理师 廖娟 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/953(2019.01) G06F 16/35(2019.01)G06K 9/62(2022.01) (54)发明名称 敏感词检测方法、 装置、 电子设备及可读存 储介质 (57)摘要 本申请实施例提供了一种敏感词检测方法、 装置、 电子设备及计算机可读存储介质, 涉及互 联网技术领域。 该方法包括: 响应于语料库中更 新含有敏感词的新语料, 根据新语料更新知 识图 谱, 知识图谱中的节点用于表征敏感词; 从语料 库中确定 预设数量的目标语料, 结合知识图谱构 造训练样 本和训练标签, 根据训练样本优化用于 检测敏感词的判别模型, 训练标签用于指示对应 的训练样 本是否包含敏感词; 根据判别模型对待 检测文本进行检测, 获得判别模 型输出的检测结 果, 检测结果用于表示待检测文本是否包含 敏感 词。 本申请实施例大幅提高了检测的效率以及精 度, 真正适用于敏感词更新频繁、 文本快速变异 的检测场景。 权利要求书2页 说明书10页 附图3页 CN 114860897 A 2022.08.05 CN 114860897 A 1.一种敏感词检测方法, 其特 征在于, 包括: 响应于语料库中更新含有敏感词的新语料, 根据所述新语料更新知识图谱, 所述知识 图谱中的节点用于表征 敏感词; 从所述语料库中确定预设数量的目标语料, 结合所述知识图谱构造训练样本和训练标 签, 根据所述训练样本优化用于检测敏感词的判别模型, 所述训练标签用于指示对应的训 练样本是否包 含敏感词; 根据所述判别模型对待检测文本进行检测, 获得所述判别模型输出的检测结果, 所述 检测结果用于表示所述待检测文本是否包 含敏感词。 2.根据权利要求1所述的方法, 其特征在于, 所述获得所述判别模型的检测结果, 之后 还包括: 若所述检测结果为待检测文本包含敏感词, 则将所述待检测文本作为新语料存储至所 述语料库。 3.根据权利要求1或2所述的方法, 其特 征在于, 所述更新所述知识图谱, 包括: 通过知识抽取模型从所述 新语料中抽取至少一个实体; 从所述至少一个实体中确定对应敏感词的目标实体, 若确定知识图谱中不存在与 所述 目标实体对应的节点, 则在所述知识图谱中创建与所述目标实体对应的新节点。 4.根据权利要求1所述的方法, 其特征在于, 所述结合所述知识图谱构造训练样本和训 练标签, 包括: 将所述知识图谱中节点表征的敏感词插入所述目标语料中, 获得所述训练样本 中的黑 样本以及对应的第一训练标签; 将所述知识图谱中节点表征的敏感词进行拆分, 将拆分后的分词插入所述目标语料 中, 获得所述训练样本中的白样本以及对应的第二训练标签; 其中, 所述第一训练标签用于表示对应的训练样本包含敏感词, 所述第二训练标签用 于表示对应的训练样本不包 含敏感词。 5.根据权利要求1或4所述的方法, 其特 征在于, 所述目标语料包括UGC语料。 6.根据权利要求1所述的方法, 其特 征在于, 所述语料库中包括 通用语料和UGC语料; 所述根据所述训练样本优化判别模型, 之前还 包括初始训练样本训练判别模型包括: 通过所述通用语料对初始模型进行训练, 获得识别语义信息的表征模型; 通过所述UGC语料对所述表征模型进行 预训练, 获得 所述预训练语言模型; 将所述预训练语言模型与文本分类模型连接, 获得组合后的模型, 通过所述初始训练 样本对所述组合后的模型训练至收敛, 获得 所述判别模型。 7.根据权利要求6所述的方法, 其特征在于, 根据训练好的判别模型对待检测文本进行 检测, 获得 所述判别模型的检测结果, 包括: 将所述待检测文本输入至所述预训练语言模型, 获得所述待检测文本的文本特征, 所 述文本特 征用于表征 所述待检测文本的语义信息; 将所述文本特 征输入至所述文本分类模型, 获得 所述检测结果。 8.一种敏感词检测装置, 其特 征在于, 包括: 图谱更新模块, 用于响应于语料库中更新含有敏感词的新语料, 根据所述新语料更新 知识图谱, 所述知识图谱中的节点用于表征 敏感词;权 利 要 求 书 1/2 页 2 CN 114860897 A 2模型优化模块, 用于从所述语料库中确定预设数量的目标语料, 结合所述知识图谱构 造训练样本和训练标签, 根据所述训练样本优化用于检测敏感词的判别模型, 所述训练标 签用于指示对应的训练样本是否包 含敏感词; 检测模块, 用于根据所述判别模型对待检测文本进行检测, 获得所述判别模型输出的 检测结果, 所述检测结果用于表示所述待检测文本是否包 含敏感词。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上的计算机程序, 其特征在于, 所述处理器执行所述计算机程序以实现权利要求1 ‑7任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1 ‑7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114860897 A 3

.PDF文档 专利 敏感词检测方法、装置、电子设备及可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 敏感词检测方法、装置、电子设备及可读存储介质 第 1 页 专利 敏感词检测方法、装置、电子设备及可读存储介质 第 2 页 专利 敏感词检测方法、装置、电子设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:58:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。