说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210135347.1 (22)申请日 2022.02.14 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 胡天瑞 侯晓龙 江炼鑫  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 谭晓欣 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 基于领域知识图谱的数据增强方法、 装置、 设备及介质 (57)摘要 本申请涉及知识图谱技术领域, 本申请提供 了一种基于领域知识图谱的数据增强方法、 装 置、 电子设备及存储介质, 方法包括将待增强的 文本数据中的词汇划分为图谱词汇和非图谱词 汇; 对于非图谱词汇采用传统的EDA方法进行数 据增强; 对于图谱词汇, 从所述领域知识图谱中 选取替换用图谱词汇, 使用所述替换用图谱词汇 替换所述待替换图谱词汇, 得到替换后的图谱词 汇。 如此, 能有效减少样本文本增强时出现的信 息丢失、 语义丢失等问题, 保证了增强后样本文 本的有效性。 在使用通过本申请的数据增强方法 得到的增强文本数据进行训练, 可以充分利用预 先学习的知识, 在样本数量较少的情况下也可以 做到比较好的训练效果, 提高机 器学习的效率。 权利要求书2页 说明书13页 附图7页 CN 114491076 A 2022.05.13 CN 114491076 A 1.一种基于领域知识图谱的数据增强方法, 其特 征在于, 所述方法包括: 将待增强的文本数据进行分词, 得到多个词汇; 将所述多个词汇划分为图谱词汇和非图谱词汇, 其中, 所述图谱词汇表征存在于预设 的领域知识图谱中的词汇, 所述非图谱词汇 表征不存在于预设的领域知识图谱中的词汇; 对各个所述图谱词汇进行第 一增强处理, 其中, 所述第 一增强处理包括替换处理, 所述 替换处理包括: 将满足第一预设被替换条件的所述图谱词汇作为待替换图谱词汇, 将未满 足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇; 对于所述待替换图谱词汇, 从所述领域知识图谱中选取替换用图谱词汇, 使用所述替换用图谱词汇替换所述待替换图 谱词汇, 得到替换后的图谱词汇; 对各个所述非图谱词 汇进行第二增强处理, 所述第 二增强处理包括: 采用EDA算法对所 述非图谱词汇进行 数据增强; 基于所述第一增强处 理和所述第二增强处 理得到增强文本数据。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一预设被替换条件为所述图谱词汇 的相似概 率大于预设概 率阈值; 所述图谱词汇的数量 为N个, N为正整数; 所述图谱词汇的相似概 率通过如下 方法获得: 基于N个所述图谱词 汇和M个预设标签文本, 构建N*M的第一相似度矩阵, 所述第一相似 度矩阵中的元素Vij表征第i个图谱词汇与第j个预设标签文本的相似度值, i为1至N之中的 任意一个正整数, j为1至 M之中的任意 一个正整数; 采用第一归一化指数函数对所述第 一相似度矩阵中的元素进行处理, 得到各个所述图 谱词汇的相似概 率。 3.根据权利要求2所述的方法, 其特征在于, 所述采用第 一归一化指数函数对所述第 一 相似度矩阵中的元 素进行处 理, 得到各个所述图谱词汇的相似概 率, 包括: 针对所述第 一相似度矩阵中的每个元素, 分别采用第 一归一化指数函数计算所述元素 对应的第一归一 化值; 针对每个所述图谱词汇, 获取与所述图谱词汇对应的元素的第一归一化值, 在去 除最 大的第一归一化值之后, 基于剩余的第一归一化值确定第二归一化值, 并将所述第二归一 化值作为所述图谱词汇的指数参数; 采用第一归一化指数函数对所述N个图谱词汇的指数参数进行处理, 得到每个所述图 谱词汇对应的相似概 率。 4.根据权利要求1所述的方法, 其特征在于, 所述从所述领域知识图谱中选取替换用图 谱词汇, 包括: 从所述领域知识图谱中确定与所述待替换图谱词汇对应的目标 上级实体; 从目标上级实体的下级词汇中随机 选取出所述替换用图谱词汇。 5.根据权利要求1所述的方法, 其特征在于, 所述增强文本数据包括扩充数据; 所述第 一增强处 理还包括数据扩充处 理, 所述数据扩充处 理包括: 获取待扩充图谱词汇, 所述待扩充图谱词汇包括所述保留的图谱词汇和所述替换后的 图谱词汇; 针对每个所述待扩充图谱词汇, 从所述领域知识图谱中确定与 所述待扩充图谱词汇对 应的关系元组;权 利 要 求 书 1/2 页 2 CN 114491076 A 2将各个所述待扩充图谱词汇对应的关系元组作为扩充数据。 6.根据权利要求1所述的方法, 其特征在于, 所述非图谱词汇的数量为K个, K为正整数; 所述采用EDA算法对所述非图谱词汇进行 数据增强, 包括: 基于K个所述非图谱词 汇和M个预设标签文本, 构 建K*M的第二相似度矩阵, 所述第二相 似度矩阵中的元素Wpj表征第p个非图谱词汇与第j个预设标签文本的相似度值, p为1至K之 中的任意 一个正整数, j为1至 M之中的任意 一个正整数; 采用第二归一化指数函数对所述第 二相似度矩阵中的元素进行处理, 得到各个所述非 图谱词汇的相似概 率; 采用EDA算法对满足第二预设被替换条件的所述非图谱词 汇进行数据增强, 其中, 所述 第二预设被替换 条件为所述非图谱词汇的相似概 率小于等于预设概 率阈值。 7.根据权利要求6所述的方法, 其特征在于, 所述采用第 二归一化指数函数对所述第 二 相似度矩阵中的元 素进行处 理, 得到各个所述非图谱词汇的相似概 率, 包括: 针对每个所述非图谱词汇, 获取与所述非图谱词汇对应的元素的平均值, 采用第二归 一化指数函数对所述平均值进行处 理, 得到所述非图谱词汇的相似概 率。 8.一种基于领域知识图谱的数据增强装置, 其特 征在于, 包括: 分词模块, 用于将待增强的文本数据进行分词, 得到多个词汇; 划分模块, 用于将所述多个词汇划分为图谱词汇和非图谱词汇, 其中, 所述图谱词汇表 征存在于预设的领域知识图谱中的词汇, 所述非图谱词汇表征不存在于预设的领域知识图 谱中的词汇; 第一增强处理模块, 用于对各个所述图谱词汇进行第 一增强处理, 其中, 所述第 一增强 处理包括替换处理, 所述替换处理包括: 将满足第一预设被替换条件的所述图谱词汇作为 待替换图谱词汇, 将未满足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇; 对 于所述待替换图谱词汇, 从所述领域知识图谱中选取替换用图谱词汇, 使用所述替换用图 谱词汇替换 所述待替换图谱词汇, 得到替换后的图谱词汇; 第二增强处理模块, 用于对各个所述非图谱词汇进行第二增强处理, 所述第二增强处 理包括: 采用EDA算法对所述非图谱词汇进行 数据增强; 结果获取模块, 用于基于所述第一增强处 理和所述第二增强处 理得到增强文本数据。 9.一种电子设备, 其特征在于, 所述电子设备包括存储器、 处理器、 存储在所述存储器 上并可在所述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实现如权 利要求1至7任一项所述的基于领域知识图谱的数据增强方法的步骤。 10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特 征在于, 所述存储介质存储有一个或者多个计算机程序, 所述一个或者多个计算机程序可 被一个或者多个处理器执行, 以实现权利要求 1至7中任一项 所述的基于领域知识图谱的数 据增强方法的步骤。权 利 要 求 书 2/2 页 3 CN 114491076 A 3

.PDF文档 专利 基于领域知识图谱的数据增强方法、装置、设备及介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于领域知识图谱的数据增强方法、装置、设备及介质 第 1 页 专利 基于领域知识图谱的数据增强方法、装置、设备及介质 第 2 页 专利 基于领域知识图谱的数据增强方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:58:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。