专利 基于领域知识图谱的数据增强方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210135347.1 (22)申请日 2022.02.14 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人胡天瑞　侯晓龙　江炼鑫　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师谭晓欣 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称基于领域知识图谱的数据增强方法、装置、设备及介质 (57)摘要本申请涉及知识图谱技术领域，本申请提供了一种基于领域知识图谱的数据增强方法、装置、电子设备及存储介质，方法包括将待增强的文本数据中的词汇划分为图谱词汇和非图谱词汇；对于非图谱词汇采用传统的EDA方法进行数据增强；对于图谱词汇，从所述领域知识图谱中选取替换用图谱词汇，使用所述替换用图谱词汇替换所述待替换图谱词汇，得到替换后的图谱词汇。如此，能有效减少样本文本增强时出现的信息丢失、语义丢失等问题，保证了增强后样本文本的有效性。在使用通过本申请的数据增强方法得到的增强文本数据进行训练，可以充分利用预先学习的知识，在样本数量较少的情况下也可以做到比较好的训练效果，提高机器学习的效率。权利要求书2页说明书13页附图7页 CN 114491076 A 2022.05.13 CN 114491076 A 1.一种基于领域知识图谱的数据增强方法，其特征在于，所述方法包括：将待增强的文本数据进行分词，得到多个词汇；将所述多个词汇划分为图谱词汇和非图谱词汇，其中，所述图谱词汇表征存在于预设的领域知识图谱中的词汇，所述非图谱词汇表征不存在于预设的领域知识图谱中的词汇；对各个所述图谱词汇进行第一增强处理，其中，所述第一增强处理包括替换处理，所述替换处理包括：将满足第一预设被替换条件的所述图谱词汇作为待替换图谱词汇，将未满足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇；对于所述待替换图谱词汇，从所述领域知识图谱中选取替换用图谱词汇，使用所述替换用图谱词汇替换所述待替换图谱词汇，得到替换后的图谱词汇；对各个所述非图谱词汇进行第二增强处理，所述第二增强处理包括：采用EDA算法对所述非图谱词汇进行数据增强；基于所述第一增强处理和所述第二增强处理得到增强文本数据。 2.根据权利要求1所述的方法，其特征在于，所述第一预设被替换条件为所述图谱词汇的相似概率大于预设概率阈值；所述图谱词汇的数量为N个， N为正整数；所述图谱词汇的相似概率通过如下方法获得：基于N个所述图谱词汇和M个预设标签文本，构建N*M的第一相似度矩阵，所述第一相似度矩阵中的元素Vij表征第i个图谱词汇与第j个预设标签文本的相似度值， i为1至N之中的任意一个正整数， j为1至 M之中的任意一个正整数；采用第一归一化指数函数对所述第一相似度矩阵中的元素进行处理，得到各个所述图谱词汇的相似概率。 3.根据权利要求2所述的方法，其特征在于，所述采用第一归一化指数函数对所述第一相似度矩阵中的元素进行处理，得到各个所述图谱词汇的相似概率，包括：针对所述第一相似度矩阵中的每个元素，分别采用第一归一化指数函数计算所述元素对应的第一归一化值；针对每个所述图谱词汇，获取与所述图谱词汇对应的元素的第一归一化值，在去除最大的第一归一化值之后，基于剩余的第一归一化值确定第二归一化值，并将所述第二归一化值作为所述图谱词汇的指数参数；采用第一归一化指数函数对所述N个图谱词汇的指数参数进行处理，得到每个所述图谱词汇对应的相似概率。 4.根据权利要求1所述的方法，其特征在于，所述从所述领域知识图谱中选取替换用图谱词汇，包括：从所述领域知识图谱中确定与所述待替换图谱词汇对应的目标上级实体；从目标上级实体的下级词汇中随机选取出所述替换用图谱词汇。 5.根据权利要求1所述的方法，其特征在于，所述增强文本数据包括扩充数据；所述第一增强处理还包括数据扩充处理，所述数据扩充处理包括：获取待扩充图谱词汇，所述待扩充图谱词汇包括所述保留的图谱词汇和所述替换后的图谱词汇；针对每个所述待扩充图谱词汇，从所述领域知识图谱中确定与所述待扩充图谱词汇对应的关系元组；权　利　要　求　书 1/2 页 2 CN 114491076 A 2将各个所述待扩充图谱词汇对应的关系元组作为扩充数据。 6.根据权利要求1所述的方法，其特征在于，所述非图谱词汇的数量为K个， K为正整数；所述采用EDA算法对所述非图谱词汇进行数据增强，包括：基于K个所述非图谱词汇和M个预设标签文本，构建K*M的第二相似度矩阵，所述第二相似度矩阵中的元素Wpj表征第p个非图谱词汇与第j个预设标签文本的相似度值， p为1至K之中的任意一个正整数， j为1至 M之中的任意一个正整数；采用第二归一化指数函数对所述第二相似度矩阵中的元素进行处理，得到各个所述非图谱词汇的相似概率；采用EDA算法对满足第二预设被替换条件的所述非图谱词汇进行数据增强，其中，所述第二预设被替换条件为所述非图谱词汇的相似概率小于等于预设概率阈值。 7.根据权利要求6所述的方法，其特征在于，所述采用第二归一化指数函数对所述第二相似度矩阵中的元素进行处理，得到各个所述非图谱词汇的相似概率，包括：针对每个所述非图谱词汇，获取与所述非图谱词汇对应的元素的平均值，采用第二归一化指数函数对所述平均值进行处理，得到所述非图谱词汇的相似概率。 8.一种基于领域知识图谱的数据增强装置，其特征在于，包括：分词模块，用于将待增强的文本数据进行分词，得到多个词汇；划分模块，用于将所述多个词汇划分为图谱词汇和非图谱词汇，其中，所述图谱词汇表征存在于预设的领域知识图谱中的词汇，所述非图谱词汇表征不存在于预设的领域知识图谱中的词汇；第一增强处理模块，用于对各个所述图谱词汇进行第一增强处理，其中，所述第一增强处理包括替换处理，所述替换处理包括：将满足第一预设被替换条件的所述图谱词汇作为待替换图谱词汇，将未满足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇；对于所述待替换图谱词汇，从所述领域知识图谱中选取替换用图谱词汇，使用所述替换用图谱词汇替换所述待替换图谱词汇，得到替换后的图谱词汇；第二增强处理模块，用于对各个所述非图谱词汇进行第二增强处理，所述第二增强处理包括：采用EDA算法对所述非图谱词汇进行数据增强；结果获取模块，用于基于所述第一增强处理和所述第二增强处理得到增强文本数据。 9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的基于领域知识图谱的数据增强方法的步骤。 10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现权利要求 1至7中任一项所述的基于领域知识图谱的数据增强方法的步骤。权　利　要　求　书 2/2 页 3 CN 114491076 A 3

专利 基于领域知识图谱的数据增强方法、装置、设备及介质

专利基于领域知识图谱的数据增强方法、装置、设备及介质