说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210295562.8 (22)申请日 2022.03.23 (71)申请人 拉扎斯网络科技 (上海) 有限公司 地址 200333 上海市普陀区真北路78 8号 507室 (72)发明人 许春媛 夏威 贾伟 杨睿昕 张安洁 陈梓健 汪利飞 (74)专利代理 机构 深圳市立智方成知识产权代 理事务所(普通 合伙) 44468 专利代理师 廖娟 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/953(2019.01) G06F 16/35(2019.01)G06K 9/62(2022.01) (54)发明名称 敏感词检测方法、 装置、 电子设备及可读存 储介质 (57)摘要 本申请实施例提供了一种敏感词检测方法、 装置、 电子设备及计算机可读存储介质, 涉及互 联网技术领域。 该方法包括: 响应于语料库中更 新含有敏感词的新语料, 根据新语料更新知 识图 谱, 知识图谱中的节点用于表征敏感词; 从语料 库中确定 预设数量的目标语料, 结合知识图谱构 造训练样 本和训练标签, 根据训练样本优化用于 检测敏感词的判别模型, 训练标签用于指示对应 的训练样 本是否包含敏感词; 根据判别模型对待 检测文本进行检测, 获得判别模 型输出的检测结 果, 检测结果用于表示待检测文本是否包含 敏感 词。 本申请实施例大幅提高了检测的效率以及精 度, 真正适用于敏感词更新频繁、 文本快速变异 的检测场景。 权利要求书2页 说明书10页 附图3页 CN 114860897 A 2022.08.05 CN 114860897 A 1.一种敏感词检测方法, 其特 征在于, 包括: 响应于语料库中更新含有敏感词的新语料, 根据所述新语料更新知识图谱, 所述知识 图谱中的节点用于表征 敏感词; 从所述语料库中确定预设数量的目标语料, 结合所述知识图谱构造训练样本和训练标 签, 根据所述训练样本优化用于检测敏感词的判别模型, 所述训练标签用于指示对应的训 练样本是否包 含敏感词; 根据所述判别模型对待检测文本进行检测, 获得所述判别模型输出的检测结果, 所述 检测结果用于表示所述待检测文本是否包 含敏感词。 2.根据权利要求1所述的方法, 其特征在于, 所述获得所述判别模型的检测结果, 之后 还包括: 若所述检测结果为待检测文本包含敏感词, 则将所述待检测文本作为新语料存储至所 述语料库。 3.根据权利要求1或2所述的方法, 其特 征在于, 所述更新所述知识图谱, 包括: 通过知识抽取模型从所述 新语料中抽取至少一个实体; 从所述至少一个实体中确定对应敏感词的目标实体, 若确定知识图谱中不存在与 所述 目标实体对应的节点, 则在所述知识图谱中创建与所述目标实体对应的新节点。 4.根据权利要求1所述的方法, 其特征在于, 所述结合所述知识图谱构造训练样本和训 练标签, 包括: 将所述知识图谱中节点表征的敏感词插入所述目标语料中, 获得所述训练样本 中的黑 样本以及对应的第一训练标签; 将所述知识图谱中节点表征的敏感词进行拆分, 将拆分后的分词插入所述目标语料 中, 获得所述训练样本中的白样本以及对应的第二训练标签; 其中, 所述第一训练标签用于表示对应的训练样本包含敏感词, 所述第二训练标签用 于表示对应的训练样本不包 含敏感词。 5.根据权利要求1或4所述的方法, 其特 征在于, 所述目标语料包括UGC语料。 6.根据权利要求1所述的方法, 其特 征在于, 所述语料库中包括 通用语料和UGC语料; 所述根据所述训练样本优化判别模型, 之前还 包括初始训练样本训练判别模型包括: 通过所述通用语料对初始模型进行训练, 获得识别语义信息的表征模型; 通过所述UGC语料对所述表征模型进行 预训练, 获得 所述预训练语言模型; 将所述预训练语言模型与文本分类模型连接, 获得组合后的模型, 通过所述初始训练 样本对所述组合后的模型训练至收敛, 获得 所述判别模型。 7.根据权利要求6所述的方法, 其特征在于, 根据训练好的判别模型对待检测文本进行 检测, 获得 所述判别模型的检测结果, 包括: 将所述待检测文本输入至所述预训练语言模型, 获得所述待检测文本的文本特征, 所 述文本特 征用于表征 所述待检测文本的语义信息; 将所述文本特 征输入至所述文本分类模型, 获得 所述检测结果。 8.一种敏感词检测装置, 其特 征在于, 包括: 图谱更新模块, 用于响应于语料库中更新含有敏感词的新语料, 根据所述新语料更新 知识图谱, 所述知识图谱中的节点用于表征 敏感词;权 利 要 求 书 1/2 页 2 CN 114860897 A 2模型优化模块, 用于从所述语料库中确定预设数量的目标语料, 结合所述知识图谱构 造训练样本和训练标签, 根据所述训练样本优化用于检测敏感词的判别模型, 所述训练标 签用于指示对应的训练样本是否包 含敏感词; 检测模块, 用于根据所述判别模型对待检测文本进行检测, 获得所述判别模型输出的 检测结果, 所述检测结果用于表示所述待检测文本是否包 含敏感词。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上的计算机程序, 其特征在于, 所述处理器执行所述计算机程序以实现权利要求1 ‑7任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1 ‑7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114860897 A 3
专利 敏感词检测方法、装置、电子设备及可读存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:38
上传分享
举报
下载
原文档
(635.6 KB)
分享
友情链接
GB-T 29157-2012 浮法玻璃生产生命周期评价技术规范 产品种类规则.pdf
YD-T 4028-2022 基于RoCE协议的数据中心高速以太无损网络测试方法.pdf
信息安全风险评估表格.docx
GB-T 43411-2023 电子束选区熔化增材制造机床 通用技术条件.pdf
SN-T 5405.1-2021 互联网环境下的认证技术指南 第1部分:总则.pdf
GB-T 28181-2011 安全防范视频监控联网系统信息传输、交换、控制技术要求.pdf
GB-T 32823-2016 电网节能项目节约电力电量测量和验证技术导则.pdf
DB43-T 1315-2023 森林城市评价指标 湖南省.pdf
DB11-T 1537-2018 风机节能监测 北京市.pdf
GA-T 1733-2020 便携式警用装备锂离子电池和电池组通用技术要求.pdf
T-CACM 1065—2018 中药DNA分子鉴定试剂盒 定性 评价技术要求.pdf
GB-T 38750.1-2020 往复式内燃机能效评定规范 第1部分:柴油机.pdf
中安网星 智域安全管家-v3.1.pdf
T-CEC 596—2022 量子IPSec VPN设备功能与检测技术规范.pdf
GB-T 22040-2008 公路沿线设施塑料制品耐候性要求及测试方法.pdf
GB-T 34411-2017 基本医疗保险待遇稽核业务规范.pdf
廖新喜 甲方API安全落地实践.pdf
DB31-T 220-2020 工业炉窑经济运行与节能监测 上海市.pdf
ISO 19160-4 2023 Addressing — Part 4 International postal address components and template.pdf
沈阳市政务数据资源共享开放条例.pdf
交流群
-->
1
/
3
16
评价文档
赞助2元 点击下载(635.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。