说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210135347.1 (22)申请日 2022.02.14 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 胡天瑞 侯晓龙 江炼鑫 (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 谭晓欣 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 基于领域知识图谱的数据增强方法、 装置、 设备及介质 (57)摘要 本申请涉及知识图谱技术领域, 本申请提供 了一种基于领域知识图谱的数据增强方法、 装 置、 电子设备及存储介质, 方法包括将待增强的 文本数据中的词汇划分为图谱词汇和非图谱词 汇; 对于非图谱词汇采用传统的EDA方法进行数 据增强; 对于图谱词汇, 从所述领域知识图谱中 选取替换用图谱词汇, 使用所述替换用图谱词汇 替换所述待替换图谱词汇, 得到替换后的图谱词 汇。 如此, 能有效减少样本文本增强时出现的信 息丢失、 语义丢失等问题, 保证了增强后样本文 本的有效性。 在使用通过本申请的数据增强方法 得到的增强文本数据进行训练, 可以充分利用预 先学习的知识, 在样本数量较少的情况下也可以 做到比较好的训练效果, 提高机 器学习的效率。 权利要求书2页 说明书13页 附图7页 CN 114491076 A 2022.05.13 CN 114491076 A 1.一种基于领域知识图谱的数据增强方法, 其特 征在于, 所述方法包括: 将待增强的文本数据进行分词, 得到多个词汇; 将所述多个词汇划分为图谱词汇和非图谱词汇, 其中, 所述图谱词汇表征存在于预设 的领域知识图谱中的词汇, 所述非图谱词汇 表征不存在于预设的领域知识图谱中的词汇; 对各个所述图谱词汇进行第 一增强处理, 其中, 所述第 一增强处理包括替换处理, 所述 替换处理包括: 将满足第一预设被替换条件的所述图谱词汇作为待替换图谱词汇, 将未满 足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇; 对于所述待替换图谱词汇, 从所述领域知识图谱中选取替换用图谱词汇, 使用所述替换用图谱词汇替换所述待替换图 谱词汇, 得到替换后的图谱词汇; 对各个所述非图谱词 汇进行第二增强处理, 所述第 二增强处理包括: 采用EDA算法对所 述非图谱词汇进行 数据增强; 基于所述第一增强处 理和所述第二增强处 理得到增强文本数据。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一预设被替换条件为所述图谱词汇 的相似概 率大于预设概 率阈值; 所述图谱词汇的数量 为N个, N为正整数; 所述图谱词汇的相似概 率通过如下 方法获得: 基于N个所述图谱词 汇和M个预设标签文本, 构建N*M的第一相似度矩阵, 所述第一相似 度矩阵中的元素Vij表征第i个图谱词汇与第j个预设标签文本的相似度值, i为1至N之中的 任意一个正整数, j为1至 M之中的任意 一个正整数; 采用第一归一化指数函数对所述第 一相似度矩阵中的元素进行处理, 得到各个所述图 谱词汇的相似概 率。 3.根据权利要求2所述的方法, 其特征在于, 所述采用第 一归一化指数函数对所述第 一 相似度矩阵中的元 素进行处 理, 得到各个所述图谱词汇的相似概 率, 包括: 针对所述第 一相似度矩阵中的每个元素, 分别采用第 一归一化指数函数计算所述元素 对应的第一归一 化值; 针对每个所述图谱词汇, 获取与所述图谱词汇对应的元素的第一归一化值, 在去 除最 大的第一归一化值之后, 基于剩余的第一归一化值确定第二归一化值, 并将所述第二归一 化值作为所述图谱词汇的指数参数; 采用第一归一化指数函数对所述N个图谱词汇的指数参数进行处理, 得到每个所述图 谱词汇对应的相似概 率。 4.根据权利要求1所述的方法, 其特征在于, 所述从所述领域知识图谱中选取替换用图 谱词汇, 包括: 从所述领域知识图谱中确定与所述待替换图谱词汇对应的目标 上级实体; 从目标上级实体的下级词汇中随机 选取出所述替换用图谱词汇。 5.根据权利要求1所述的方法, 其特征在于, 所述增强文本数据包括扩充数据; 所述第 一增强处 理还包括数据扩充处 理, 所述数据扩充处 理包括: 获取待扩充图谱词汇, 所述待扩充图谱词汇包括所述保留的图谱词汇和所述替换后的 图谱词汇; 针对每个所述待扩充图谱词汇, 从所述领域知识图谱中确定与 所述待扩充图谱词汇对 应的关系元组;权 利 要 求 书 1/2 页 2 CN 114491076 A 2将各个所述待扩充图谱词汇对应的关系元组作为扩充数据。 6.根据权利要求1所述的方法, 其特征在于, 所述非图谱词汇的数量为K个, K为正整数; 所述采用EDA算法对所述非图谱词汇进行 数据增强, 包括: 基于K个所述非图谱词 汇和M个预设标签文本, 构 建K*M的第二相似度矩阵, 所述第二相 似度矩阵中的元素Wpj表征第p个非图谱词汇与第j个预设标签文本的相似度值, p为1至K之 中的任意 一个正整数, j为1至 M之中的任意 一个正整数; 采用第二归一化指数函数对所述第 二相似度矩阵中的元素进行处理, 得到各个所述非 图谱词汇的相似概 率; 采用EDA算法对满足第二预设被替换条件的所述非图谱词 汇进行数据增强, 其中, 所述 第二预设被替换 条件为所述非图谱词汇的相似概 率小于等于预设概 率阈值。 7.根据权利要求6所述的方法, 其特征在于, 所述采用第 二归一化指数函数对所述第 二 相似度矩阵中的元 素进行处 理, 得到各个所述非图谱词汇的相似概 率, 包括: 针对每个所述非图谱词汇, 获取与所述非图谱词汇对应的元素的平均值, 采用第二归 一化指数函数对所述平均值进行处 理, 得到所述非图谱词汇的相似概 率。 8.一种基于领域知识图谱的数据增强装置, 其特 征在于, 包括: 分词模块, 用于将待增强的文本数据进行分词, 得到多个词汇; 划分模块, 用于将所述多个词汇划分为图谱词汇和非图谱词汇, 其中, 所述图谱词汇表 征存在于预设的领域知识图谱中的词汇, 所述非图谱词汇表征不存在于预设的领域知识图 谱中的词汇; 第一增强处理模块, 用于对各个所述图谱词汇进行第 一增强处理, 其中, 所述第 一增强 处理包括替换处理, 所述替换处理包括: 将满足第一预设被替换条件的所述图谱词汇作为 待替换图谱词汇, 将未满足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇; 对 于所述待替换图谱词汇, 从所述领域知识图谱中选取替换用图谱词汇, 使用所述替换用图 谱词汇替换 所述待替换图谱词汇, 得到替换后的图谱词汇; 第二增强处理模块, 用于对各个所述非图谱词汇进行第二增强处理, 所述第二增强处 理包括: 采用EDA算法对所述非图谱词汇进行 数据增强; 结果获取模块, 用于基于所述第一增强处 理和所述第二增强处 理得到增强文本数据。 9.一种电子设备, 其特征在于, 所述电子设备包括存储器、 处理器、 存储在所述存储器 上并可在所述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实现如权 利要求1至7任一项所述的基于领域知识图谱的数据增强方法的步骤。 10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特 征在于, 所述存储介质存储有一个或者多个计算机程序, 所述一个或者多个计算机程序可 被一个或者多个处理器执行, 以实现权利要求 1至7中任一项 所述的基于领域知识图谱的数 据增强方法的步骤。权 利 要 求 书 2/2 页 3 CN 114491076 A 3
专利 基于领域知识图谱的数据增强方法、装置、设备及介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:06
上传分享
举报
下载
原文档
(982.7 KB)
分享
友情链接
NY-T 3630.1-2020 农药利用率田间测定方法第1部分%3A大田作物茎叶喷雾的农药沉积利用率测定方法-诱惑红指示剂法.pdf
IPC-A-610 电子组件的可接受性.pdf
GB-T 35854-2018 风力发电机组及其组件机械振动测量与评估.pdf
GB-T 37962-2019 信息安全技术 工业控制系统产品信息安全通用评估准则.pdf
DAMA数据管理知识体系指南(原书第2版).pdf
GB/T 6165-2021 高效空气过滤器性能试验方法 效率和阻力.pdf
GB-T 30307-2023 家用和类似用途饮用水处理装置.pdf
GB-T 14272-2021 羽绒服装.pdf
山东省规章和行政规范性文件备案规定.pdf
GB-T 42549-2023 海洋调查船舶实验室安全管理规范.pdf
GB-T 35782-2017 道路甩挂运输车辆技术条件.pdf
T-GHDQ 89.2—2022 车载网络安全测试规范 第2部分:车载以太网安全测试规范.pdf
SN-T 4062-2014 出口植物性中药材中稀土元素的测定方法.pdf
GB-T 21053-2023 信息安全技术 公钥基础设施 PKI系统安全技术要求.pdf
GB-T 37804-2019 冬小麦苗情长势监测规范.pdf
MZ-T 120-2018 自立式辅助起床架.pdf
DB42-T 1833-2022 河道管理范围钻孔封孔技术规程 湖北省.pdf
GB-T 22151-2008 国际货运代理作业规范.pdf
T-CCTA 20102—2023 纺织品 抗氧化能力的测定及评价 DPPH和ABTS法.pdf
GB-T 21141-2007 防沙治沙技术规范.pdf
交流群
-->
1
/
3
23
评价文档
赞助2元 点击下载(982.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。