说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210233527.3 (22)申请日 2022.03.10 (71)申请人 深圳壹账通科技 服务有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 朱昱锦 徐亮 (74)专利代理 机构 北京英特普罗知识产权代理 有限公司 1 1015 专利代理师 王勇 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/268(2020.01) G06K 9/62(2022.01) (54)发明名称 文本扩增方法、 系统、 计算机设备及可读存 储介质 (57)摘要 本发明提供了一种文本扩增方法, 所述方法 包括: 获取问句, 解析问句中的各个实词, 标注各 个实词的词性; 根据各个实词的词性以及各个实 词的字数, 获取各个实词的关键性排序值; 将关 键性排序值高于预设阈值的实词作为目标实词; 通过预设知识图谱或者预设提取规则, 提取目标 实词的同义词或者近义词; 将提取到的同义词或 者近义词作为扩增文本添加到机器阅读理解的 通用数据集中, 实现文本扩增; 本发明实施例根 据关键性排序值提取出问句中的关键信息, 提高 了机器阅读理解的识别模型给出的答案的准确 性; 通过关键信息查询词典或者知识图谱的方式 对关键信息进行扩充, 提高了识别模 型给出答案 的概率。 权利要求书2页 说明书10页 附图3页 CN 114661917 A 2022.06.24 CN 114661917 A 1.一种文本扩增方法, 用于 机器阅读理解, 其特 征在于, 所述方法包括: 获取问句, 解析所述问句中的各个实词, 标注各个所述实词的词性; 各个所述实词的词 性为名词、 动词、 形容词以及副词中的一种; 根据各个所述实词的词性以及各个所述实词的字数, 获取各个所述实词的关键性排序 值; 将关键性 排序值高于预设阈值的实词作为目标实词; 通过预设知识图谱或者预设提取规则, 提取 所述目标实词的同义词或者近义词; 将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中, 实 现文本扩增。 2.根据权利要求1所述的文本扩增方法, 其特征在于, 所述根据 各个所述实词的词性以 及各个所述实词的字数, 获取 各个所述实词的关键性 排序值的步骤, 包括: 获取各个所述实词的预设词性 值以及各个实词的字数; 通过 Pi=σ1Qi+σ2Si 计算各个实词的关键性排序值; 其中, 所述Pi表示实词i的关键性排序值, 所述Qi表示实 词i的词性值; 所述Si表示实词i的字数; σ1表示实词i的词性值所占的权重, σ2表示实词i的 字数所占的权 重, σ1+σ2=1。 3.根据权利要求1所述的文本扩增方法, 其特征在于, 所述通过预设提取规则, 提取所 述目标实词的同义词或者近义词的步骤 包括: 根据所述目标实词, 在第一词典中查询得到多个对应于所述目标实词的第一语句, 从 多个第一语句中筛选出符合所述预设提取规则的至少一个第一目标语句, 基于所述预设提 取规则在所述至少一个第一目标语句中确定第一目标位置, 根据所述第一目标位置提取对 应于所述目标实词的第一同义词或近义词; 根据所述目标实词, 在第二词典中查询得到多个对应于所述目标实词的第二语句, 从 多个第二语句中筛选出符合所述预设提取规则的至少一个第二目标语句, 基于所述预设提 取规则在所述至少一个第二目标语句中确定第二目标位置, 根据所述第二目标位置提取对 应于所述目标实词的第二同义词或近义词; 根据聚类算法获取 所述目标实词的同义词或者近义词。 4.根据权利要求3所述的文本扩增方法, 其特征在于, 所述根据聚类算法获取所述目标 实词的同义词或者近义词的步骤, 包括: 将所述目标实词作为 聚类中心, 分别计算所述第 一同义词或近义词与 所述聚类中心之 间的距离, 以及所述第二同义词或近义词与所述聚类中心之间的距离; 将所述第一同义词或近义词与所述聚类中心之间的距离以及所述第二同义词或近义 词与所述聚类中心之间的距离进行比对; 将两个距离中最小的距离对应的同义词或近义词确定为所述目标实词的同义词或者 近义词。 5.根据权利要求1所述的文本扩增方法, 其特征在于, 所述通过预设知识图谱, 提取所 述目标实词的同义词或者近义词的方法包括: 在所述预设知识图谱中为所述目标实词匹配出多个三元组数据; 每个所述三元组数据权 利 要 求 书 1/2 页 2 CN 114661917 A 2包括头实体、 关系 、 尾实体, 所述目标实词为头实体或尾实体中的一种; 筛选出与所述目标实词关联的多个关系, 在所述多个三元组数据找出包括多个所述关 系的多个目标三元组数据; 通过各所述目标三元组数据, 确定与所述目标实体对应的目标近义词或目标同义词。 6.根据权利要求1所述的文本扩增方法, 其特征在于, 所述提取对应于所述目标实词的 同义词或者近义词的步骤之后, 还 包括: 通过汉字的四角号码信 息, 查询四角号码字典, 以得到结构相近的汉字, 将结构相近的 汉字聚合在一 起, 以构建形近 字字典; 对字库中的每 个汉字标注拼音, 将相同读音的汉字聚合在一 起, 以构建音近 字字典; 根据所述问句中的汉字依次查询形近字字典以及音近字字典, 以得到问句中的每个汉 字的音近 字以及形近 字; 将所述音近 字以及形近 字作为扩增文本添加到 机器阅读理解的通用数据集中。 7.根据权利要求1所述的文本扩增方法, 其特征在于, 所述解析所述问句中的各个实词 的步骤, 包括: 通过中文解析库对所述问句中的各个实词进行解析; 将解析后的实词作为训练样本加入预训练语言模型进行训练, 根据预设规则提取各类 词性的实词。 8.一种文本扩增系统, 其特 征在于, 包括: 解析模块, 用于获取问句, 解析所述问句中的各个实词, 标注各个所述实词的词性; 各 个所述实词的词性 为名词、 动词、 形容词以及副词中的一种; 排序模块, 用于根据各个所述实词的词性以及各个所述实词的字数, 获取各个所述实 词的关键性 排序值; 将关键性 排序值高于预设阈值的实词作为目标实词; 提取模块, 用于通过预设知识图谱或者预设提取规则, 提取所述目标实词的同义词或 者近义词; 将提取到的同义词或者近义词 作为扩增文本添加到机器阅读理解的通用数据集 中, 实现文本扩增。 9.一种计算机设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的 计算机程序, 其特征在于, 所述处理器执行所述计算机程序时用于实现权利要求1~7中任 一项所述的文本扩增方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 其内存储有计算机程序, 所述计算机程序 可被至少一个处理器所执行, 以使所述至少一个处理器执行权利要求1~7中任一项 所述的 文本扩增方法的步骤。权 利 要 求 书 2/2 页 3 CN 114661917 A 3
专利 文本扩增方法、系统、计算机设备及可读存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:49
上传分享
举报
下载
原文档
(556.0 KB)
分享
友情链接
GB-T 34057-2017 电子商务信用 网络零售信用基本要求 消费品零售.pdf
GB-T 43020-2023 调频频段数字音频广播接收机技术规范.pdf
YD-T 交互式应用程序安全测试工具能力要求.pdf
NY-T 1520-2021 木薯.pdf
GB-T 41554-2022 地理空间观测平台及传感器资源元数据.pdf
DB13-T 2957-2019 工业计量与控制数字化应用规范 河北省.pdf
DL-T 884-2019 火电厂金相检验与评定技术导则.pdf
GB-T 37893-2019 激光-电弧复合焊接推荐工艺方法.pdf
T-CQTSHRA 008—2024 人才测评服务业务规范.pdf
T-SIA 031.1—2021 系统安全工程网络弹性构建指南 第1部分 概述.pdf
渗透测试战技101.pdf
GB-T 38634.3-2020 系统与软件工程 软件测试 第3部分:测试文档.pdf
6-31-07-02 工业视觉系统运维员.pdf
DB35-T 1344-2013 橄榄丰产栽培技术规范 福建省.pdf
JYT 0631-2020 义务教育学校音乐教室建设与装备规范.pdf
T-CCGA 40009—2021 车载液氢系统安全技术规范.pdf
GB-T 34422-2017 汽车用制动盘.pdf
GB-T 28258-2012 制药机械产品分类及编码.pdf
YD-T 3956-2024 电信领域数据安全风险评估规范.pdf
GB-T 32065.14-2019 海洋仪器环境试验方法 第14部分振动试验.pdf
交流群
-->
1
/
3
16
评价文档
赞助2元 点击下载(556.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。