说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210233527.3 (22)申请日 2022.03.10 (71)申请人 深圳壹账通科技 服务有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 朱昱锦 徐亮  (74)专利代理 机构 北京英特普罗知识产权代理 有限公司 1 1015 专利代理师 王勇 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/268(2020.01) G06K 9/62(2022.01) (54)发明名称 文本扩增方法、 系统、 计算机设备及可读存 储介质 (57)摘要 本发明提供了一种文本扩增方法, 所述方法 包括: 获取问句, 解析问句中的各个实词, 标注各 个实词的词性; 根据各个实词的词性以及各个实 词的字数, 获取各个实词的关键性排序值; 将关 键性排序值高于预设阈值的实词作为目标实词; 通过预设知识图谱或者预设提取规则, 提取目标 实词的同义词或者近义词; 将提取到的同义词或 者近义词作为扩增文本添加到机器阅读理解的 通用数据集中, 实现文本扩增; 本发明实施例根 据关键性排序值提取出问句中的关键信息, 提高 了机器阅读理解的识别模型给出的答案的准确 性; 通过关键信息查询词典或者知识图谱的方式 对关键信息进行扩充, 提高了识别模 型给出答案 的概率。 权利要求书2页 说明书10页 附图3页 CN 114661917 A 2022.06.24 CN 114661917 A 1.一种文本扩增方法, 用于 机器阅读理解, 其特 征在于, 所述方法包括: 获取问句, 解析所述问句中的各个实词, 标注各个所述实词的词性; 各个所述实词的词 性为名词、 动词、 形容词以及副词中的一种; 根据各个所述实词的词性以及各个所述实词的字数, 获取各个所述实词的关键性排序 值; 将关键性 排序值高于预设阈值的实词作为目标实词; 通过预设知识图谱或者预设提取规则, 提取 所述目标实词的同义词或者近义词; 将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中, 实 现文本扩增。 2.根据权利要求1所述的文本扩增方法, 其特征在于, 所述根据 各个所述实词的词性以 及各个所述实词的字数, 获取 各个所述实词的关键性 排序值的步骤, 包括: 获取各个所述实词的预设词性 值以及各个实词的字数; 通过 Pi=σ1Qi+σ2Si 计算各个实词的关键性排序值; 其中, 所述Pi表示实词i的关键性排序值, 所述Qi表示实 词i的词性值; 所述Si表示实词i的字数; σ1表示实词i的词性值所占的权重, σ2表示实词i的 字数所占的权 重, σ1+σ2=1。 3.根据权利要求1所述的文本扩增方法, 其特征在于, 所述通过预设提取规则, 提取所 述目标实词的同义词或者近义词的步骤 包括: 根据所述目标实词, 在第一词典中查询得到多个对应于所述目标实词的第一语句, 从 多个第一语句中筛选出符合所述预设提取规则的至少一个第一目标语句, 基于所述预设提 取规则在所述至少一个第一目标语句中确定第一目标位置, 根据所述第一目标位置提取对 应于所述目标实词的第一同义词或近义词; 根据所述目标实词, 在第二词典中查询得到多个对应于所述目标实词的第二语句, 从 多个第二语句中筛选出符合所述预设提取规则的至少一个第二目标语句, 基于所述预设提 取规则在所述至少一个第二目标语句中确定第二目标位置, 根据所述第二目标位置提取对 应于所述目标实词的第二同义词或近义词; 根据聚类算法获取 所述目标实词的同义词或者近义词。 4.根据权利要求3所述的文本扩增方法, 其特征在于, 所述根据聚类算法获取所述目标 实词的同义词或者近义词的步骤, 包括: 将所述目标实词作为 聚类中心, 分别计算所述第 一同义词或近义词与 所述聚类中心之 间的距离, 以及所述第二同义词或近义词与所述聚类中心之间的距离; 将所述第一同义词或近义词与所述聚类中心之间的距离以及所述第二同义词或近义 词与所述聚类中心之间的距离进行比对; 将两个距离中最小的距离对应的同义词或近义词确定为所述目标实词的同义词或者 近义词。 5.根据权利要求1所述的文本扩增方法, 其特征在于, 所述通过预设知识图谱, 提取所 述目标实词的同义词或者近义词的方法包括: 在所述预设知识图谱中为所述目标实词匹配出多个三元组数据; 每个所述三元组数据权 利 要 求 书 1/2 页 2 CN 114661917 A 2包括头实体、 关系 、 尾实体, 所述目标实词为头实体或尾实体中的一种; 筛选出与所述目标实词关联的多个关系, 在所述多个三元组数据找出包括多个所述关 系的多个目标三元组数据; 通过各所述目标三元组数据, 确定与所述目标实体对应的目标近义词或目标同义词。 6.根据权利要求1所述的文本扩增方法, 其特征在于, 所述提取对应于所述目标实词的 同义词或者近义词的步骤之后, 还 包括: 通过汉字的四角号码信 息, 查询四角号码字典, 以得到结构相近的汉字, 将结构相近的 汉字聚合在一 起, 以构建形近 字字典; 对字库中的每 个汉字标注拼音, 将相同读音的汉字聚合在一 起, 以构建音近 字字典; 根据所述问句中的汉字依次查询形近字字典以及音近字字典, 以得到问句中的每个汉 字的音近 字以及形近 字; 将所述音近 字以及形近 字作为扩增文本添加到 机器阅读理解的通用数据集中。 7.根据权利要求1所述的文本扩增方法, 其特征在于, 所述解析所述问句中的各个实词 的步骤, 包括: 通过中文解析库对所述问句中的各个实词进行解析; 将解析后的实词作为训练样本加入预训练语言模型进行训练, 根据预设规则提取各类 词性的实词。 8.一种文本扩增系统, 其特 征在于, 包括: 解析模块, 用于获取问句, 解析所述问句中的各个实词, 标注各个所述实词的词性; 各 个所述实词的词性 为名词、 动词、 形容词以及副词中的一种; 排序模块, 用于根据各个所述实词的词性以及各个所述实词的字数, 获取各个所述实 词的关键性 排序值; 将关键性 排序值高于预设阈值的实词作为目标实词; 提取模块, 用于通过预设知识图谱或者预设提取规则, 提取所述目标实词的同义词或 者近义词; 将提取到的同义词或者近义词 作为扩增文本添加到机器阅读理解的通用数据集 中, 实现文本扩增。 9.一种计算机设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的 计算机程序, 其特征在于, 所述处理器执行所述计算机程序时用于实现权利要求1~7中任 一项所述的文本扩增方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 其内存储有计算机程序, 所述计算机程序 可被至少一个处理器所执行, 以使所述至少一个处理器执行权利要求1~7中任一项 所述的 文本扩增方法的步骤。权 利 要 求 书 2/2 页 3 CN 114661917 A 3

.PDF文档 专利 文本扩增方法、系统、计算机设备及可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本扩增方法、系统、计算机设备及可读存储介质 第 1 页 专利 文本扩增方法、系统、计算机设备及可读存储介质 第 2 页 专利 文本扩增方法、系统、计算机设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:58:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。