专利 文本扩增方法、系统、计算机设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210233527.3 (22)申请日 2022.03.10 (71)申请人深圳壹账通科技服务有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室（入驻深圳市前海商务秘书有限公司） (72)发明人朱昱锦　徐亮　 (74)专利代理机构北京英特普罗知识产权代理有限公司 1 1015 专利代理师王勇 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/268(2020.01) G06K 9/62(2022.01) (54)发明名称文本扩增方法、系统、计算机设备及可读存储介质 (57)摘要本发明提供了一种文本扩增方法，所述方法包括：获取问句，解析问句中的各个实词，标注各个实词的词性；根据各个实词的词性以及各个实词的字数，获取各个实词的关键性排序值；将关键性排序值高于预设阈值的实词作为目标实词；通过预设知识图谱或者预设提取规则，提取目标实词的同义词或者近义词；将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中，实现文本扩增；本发明实施例根据关键性排序值提取出问句中的关键信息，提高了机器阅读理解的识别模型给出的答案的准确性；通过关键信息查询词典或者知识图谱的方式对关键信息进行扩充，提高了识别模型给出答案的概率。权利要求书2页说明书10页附图3页 CN 114661917 A 2022.06.24 CN 114661917 A 1.一种文本扩增方法，用于机器阅读理解，其特征在于，所述方法包括：获取问句，解析所述问句中的各个实词，标注各个所述实词的词性；各个所述实词的词性为名词、动词、形容词以及副词中的一种；根据各个所述实词的词性以及各个所述实词的字数，获取各个所述实词的关键性排序值；将关键性排序值高于预设阈值的实词作为目标实词；通过预设知识图谱或者预设提取规则，提取所述目标实词的同义词或者近义词；将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中，实现文本扩增。 2.根据权利要求1所述的文本扩增方法，其特征在于，所述根据各个所述实词的词性以及各个所述实词的字数，获取各个所述实词的关键性排序值的步骤，包括：获取各个所述实词的预设词性值以及各个实词的字数；通过 Pi＝σ1Qi+σ2Si 计算各个实词的关键性排序值；其中，所述Pi表示实词i的关键性排序值，所述Qi表示实词i的词性值；所述Si表示实词i的字数； σ1表示实词i的词性值所占的权重， σ2表示实词i的字数所占的权重， σ1+σ2＝1。 3.根据权利要求1所述的文本扩增方法，其特征在于，所述通过预设提取规则，提取所述目标实词的同义词或者近义词的步骤包括：根据所述目标实词，在第一词典中查询得到多个对应于所述目标实词的第一语句，从多个第一语句中筛选出符合所述预设提取规则的至少一个第一目标语句，基于所述预设提取规则在所述至少一个第一目标语句中确定第一目标位置，根据所述第一目标位置提取对应于所述目标实词的第一同义词或近义词；根据所述目标实词，在第二词典中查询得到多个对应于所述目标实词的第二语句，从多个第二语句中筛选出符合所述预设提取规则的至少一个第二目标语句，基于所述预设提取规则在所述至少一个第二目标语句中确定第二目标位置，根据所述第二目标位置提取对应于所述目标实词的第二同义词或近义词；根据聚类算法获取所述目标实词的同义词或者近义词。 4.根据权利要求3所述的文本扩增方法，其特征在于，所述根据聚类算法获取所述目标实词的同义词或者近义词的步骤，包括：将所述目标实词作为聚类中心，分别计算所述第一同义词或近义词与所述聚类中心之间的距离，以及所述第二同义词或近义词与所述聚类中心之间的距离；将所述第一同义词或近义词与所述聚类中心之间的距离以及所述第二同义词或近义词与所述聚类中心之间的距离进行比对；将两个距离中最小的距离对应的同义词或近义词确定为所述目标实词的同义词或者近义词。 5.根据权利要求1所述的文本扩增方法，其特征在于，所述通过预设知识图谱，提取所述目标实词的同义词或者近义词的方法包括：在所述预设知识图谱中为所述目标实词匹配出多个三元组数据；每个所述三元组数据权　利　要　求　书 1/2 页 2 CN 114661917 A 2包括头实体、关系、尾实体，所述目标实词为头实体或尾实体中的一种；筛选出与所述目标实词关联的多个关系，在所述多个三元组数据找出包括多个所述关系的多个目标三元组数据；通过各所述目标三元组数据，确定与所述目标实体对应的目标近义词或目标同义词。 6.根据权利要求1所述的文本扩增方法，其特征在于，所述提取对应于所述目标实词的同义词或者近义词的步骤之后，还包括：通过汉字的四角号码信息，查询四角号码字典，以得到结构相近的汉字，将结构相近的汉字聚合在一起，以构建形近字字典；对字库中的每个汉字标注拼音，将相同读音的汉字聚合在一起，以构建音近字字典；根据所述问句中的汉字依次查询形近字字典以及音近字字典，以得到问句中的每个汉字的音近字以及形近字；将所述音近字以及形近字作为扩增文本添加到机器阅读理解的通用数据集中。 7.根据权利要求1所述的文本扩增方法，其特征在于，所述解析所述问句中的各个实词的步骤，包括：通过中文解析库对所述问句中的各个实词进行解析；将解析后的实词作为训练样本加入预训练语言模型进行训练，根据预设规则提取各类词性的实词。 8.一种文本扩增系统，其特征在于，包括：解析模块，用于获取问句，解析所述问句中的各个实词，标注各个所述实词的词性；各个所述实词的词性为名词、动词、形容词以及副词中的一种；排序模块，用于根据各个所述实词的词性以及各个所述实词的字数，获取各个所述实词的关键性排序值；将关键性排序值高于预设阈值的实词作为目标实词；提取模块，用于通过预设知识图谱或者预设提取规则，提取所述目标实词的同义词或者近义词；将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中，实现文本扩增。 9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1～7中任一项所述的文本扩增方法的步骤。 10.一种计算机可读存储介质，其特征在于，其内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1～7中任一项所述的文本扩增方法的步骤。权　利　要　求　书 2/2 页 3 CN 114661917 A 3

专利 文本扩增方法、系统、计算机设备及可读存储介质

专利文本扩增方法、系统、计算机设备及可读存储介质