(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210135548.1
(22)申请日 2022.02.14
(71)申请人 合肥工业大 学
地址 230009 安徽省合肥市屯溪路193号
(72)发明人 吴信东 洪炎 卜晨阳
(74)专利代理 机构 北京康信知识产权代理有限
责任公司 1 1240
专利代理师 周春枚
(51)Int.Cl.
G06F 16/36(2019.01)
G06N 5/02(2006.01)
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06N 20/00(2019.01)
(54)发明名称
基于规则信息的高质量噪音检测方法与装
置
(57)摘要
本发明公开了一种基于规则信息的高质量
噪音检测方法与装置。 其中, 该方法包括: 根据文
本数据构建知识图谱, 其中, 知识图谱至少包括
高质量噪音, 高质量噪音为实体类型相同但错误
的三元组; 对知识图谱抽取的规则进行实例化处
理, 得到知识图谱的目标三元组; 确定目标三元
组的目标置信度; 根据目标置信度, 确定知识图
谱中的高质量噪音。 本发明解决了建模过程中的
知识图谱存在高质量噪音且无法有效检测出高
质量噪音的技 术问题。
权利要求书2页 说明书11页 附图2页
CN 114860945 A
2022.08.05
CN 114860945 A
1.一种基于规则 信息的高质量噪音检测方法, 其特 征在于, 包括:
根据文本数据构建知识图谱, 其中, 所述知识图谱至少包括高质量噪音, 所述高质量噪
音为实体 类型相同但错 误的三元组;
对所述知识图谱抽取的规则进行实例化处 理, 得到所述知识图谱的目标三元组;
确定所述目标三元组的目标置信度;
根据所述目标置信度, 确定所述知识图谱中的所述高质量噪音。
2.根据权利要求1所述的方法, 其特征在于, 对所述知识图谱抽取的规则进行实例化处
理, 得到所述知识图谱的目标三元组, 包括:
获取所述知识图谱的三元组以及实体集 合;
根据所述 三元组进行规则抽取, 得到所述知识图谱的所述 规则;
根据所述实体集 合对所述 规则进行实例化处 理, 得到所述目标三元组。
3.根据权利要求1所述的方法, 其特 征在于, 确定所述目标三元组的目标置信度, 包括:
获取所述目标三元组的全局路径置信度与规则置信度;
根据所述全局路径置信度与所述 规则置信度, 确定所述目标置信度。
4.根据权利要求3所述的方法, 其特 征在于, 获取 所述目标三元组的规则置信度, 包括:
获取所述目标三元组中规则体与规则头之间所关联的权值;
分别计算出 所述目标三元组中规则体的分值、 规则头的分值;
根据所述权值、 所述 规则体的分值以及所述 规则头的分值, 得到所述 规则置信度。
5.根据权利要求3所述的方法, 其特征在于, 根据 所述全局路径置信度与所述规则 置信
度, 确定所述目标置信度, 采用以下 方式表示:
C(h,r,t)= λ1·LT(h,r,t)+λ2·RC(h,r,t)
其中, C(h,r,t)为所述目标三元组, C(h,r,t)为所述目标三元组的目标置信度, LT(h,
r,t)为所述目标三元组的全局路径置信度, RC(h,r,t)为所述目标三元组的规则置信度, λ1
为所述目标三元组对应的第一超参数, λ2为所述目标三元组对应的第二超参数。
6.根据权利要求1所述的方法, 其特征在于, 根据所述目标置信度, 确定所述知识图谱
中的所述高质量噪音, 包括:
判断所述目标置信度是否小于 置信度阈值;
在所述目标置信度是小于所述置信度阈值的情况下, 则 筛选出所述知识图谱中的所述
高质量噪音。
7.根据权利要求1至6 中任意一项所述的方法, 其特征在于, 根据 所述目标置信度, 确定
所述知识图谱中的所述高质量噪音之后, 所述方法还 包括:
删除所述知识图谱中的所述高质量噪音, 得到目标知识图谱;
根据所述目标知识图谱中的三元组以及所述三元组对应的所述目标置信度, 训练表示
学习模型, 其中, 所述表示学习模型包括成对排序损失函数的目标函数。
8.一种基于规则 信息的高质量噪音检测装置, 其特 征在于, 包括:
构建模块, 用于根据文本数据构建知识图谱, 其中, 所述知识图谱至少包括高质量噪
音, 所述高质量噪音为实体 类型相同但错 误的三元组;
处理模块, 用于对所述知识图谱抽取的规则进行实例化处理, 得到所述知识图谱的目
标三元组;权 利 要 求 书 1/2 页
2
CN 114860945 A
2第一确定模块, 用于确定所述目标三元组的目标置信度;
第二确定模块, 用于根据所述目标置信度, 确定所述知识图谱中的所述高质量噪音。
9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质包括存储的程序,
其中, 在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求 1至7中任意
一项所述的基于规则 信息的高质量噪音检测方法。
10.一种处理器, 其特征在于, 所述处理器用于运行程序, 其中, 所述程序运行时执行权
利要求1至7中任意 一项所述的基于规则 信息的高质量噪音检测方法。权 利 要 求 书 2/2 页
3
CN 114860945 A
3
专利 基于规则信息的高质量噪音检测方法与装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:58:00上传分享