说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210376477.4 (22)申请日 2022.04.11 (71)申请人 中国航空综合 技术研究所 地址 100028 北京市朝阳区东 直门外京顺 路7号 (72)发明人 董洪飞 高魁 贺薇 陶剑 刘俊  王孝天 武铎 高龙 何柳 安然  (74)专利代理 机构 北京孚睿湾知识产权代理事 务所(普通 合伙) 11474 专利代理师 韩燕 (51)Int.Cl. G06F 40/289(2020.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 16/36(2019.01)G06F 40/242(2020.01) G06F 40/284(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 实现航空领域知识问答的方法和系统 (57)摘要 本发明提供一种实现航空领域知识问答的 方法和系统, 方法包括以下步骤: S1: 对文本中的 词语进行分类并设置权重; S2: 通过改进的词典 权重调整的BM2 5算法, 得到和问题文本最相似的 k篇文本段落; S3: 使用Bert模型得到对应文本的 字符特征向量; S4: 通过特征融合获得字符最终 特征向量; S5: 将字符最终特征向量输入到改进 的BiDAF+Bi‑LSTM模型得到 带有多种特征的问题 文本字符特征向量和文本段落字符特征向量; S6: 通过判断答案开始的全连接层+softmax和判 断答案结束的全连接层+softmax抽取出对应文 本的答案句; S7: 若 k=1, 直接得到答案句; 若 k≠ 1, 还需执行S8; S8: 使用LTP工 具生成多文本答案 句。 系统用于实现方法。 本发明解决现有的智能 问答系统无法满足航空领域问答的需求。 权利要求书3页 说明书12页 附图6页 CN 114757184 A 2022.07.15 CN 114757184 A 1.一种实现航空领域知识问答的方法, 其特 征在于: 其包括以下步骤: S1: 根据航空知识领域的文本段落得到问题文本, 再对文本段落和问题文本中的词语 进行分类并设置优先级和权 重, S2: 针对不同优先级的词语, 通过改进的词典权重调整的BM25算法, 得到和问题文本最 相似的k篇文本段落; S3: 将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert 模型得到对应文本的字符特 征向量; S4: 利用Word2Vec模型得到字符其它特征向量, 将字符特征向量和字符其它特征向量 进行融合, 最后获得字符最 终特征向量, 实现了多 特征子空间的文本映射表示; 字符其它特 征向量包括郑码、 五笔、 拼音和笔画特 征向量; S5: 将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi ‑LSTM模型, 并使用面向航空领域的数据进 行对抗训练, 得到带有多种特征的问题文本字符特征向量和 带有多种特征的文本段落字符特 征向量, 具体为: 将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互 交互, 再输入到Bi ‑LSTM模型, 对信息进行编码增强序列依赖, 最终得到带有多种特征的问 题文本字符特征向量和带有多种特征的文本段落字符特征向量, 使用面向航空领域的数据 进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字 符特征向量的鲁棒 性; S6: 将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判 断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的 答案句; S7: 判断k值是否等于1, 若k=1, 则问题的答案来自单文本, 直接得到该单文本答案句; 若k≠1, 则问题的答案来自多文本, 需要对多段候选答案文本进行融合语义基于依据句法 分析树的规则组合, 进行语法和语义判断; S8: 判断为多文本问答, 则使用LTP工具根据答案句的依存句法结构和语义角色关系, 利用句法规则生成多 文本答案句。 2.根据权利要求1所述的实现航空领域知识问答的方法, 其特征在于: 所述步骤S1中对 文本段落和问题文本中的词语进行分类并设置优先级和权 重, 具体为: 对问题文本基于领域的依存句法树, 分析提取问题中不依存于其他词语且被除本身之 外所有词语依存的核心词, 核心词一 起组成核心词典; 对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词, 领域 词一起构成了领域词典; 使用LTP分词工具, 在文本段落中得到去除核心词、 领域词和停用词之外的词, 称为非 相关词, 非相关词一 起组成了其 他词汇词典; 对上述得到的三种不同类型的词赋予不同优先级和权重, 对核心词设为第一优先级, 设置的权重值高于其他两类词的权重, 对领域词设为第二优先级, 设置的权重高于非相关 词的权重, 对非相关词设为第三优先级, 设置的权 重最低。 3.根据权利要求2所述的实现航空领域知识问答的方法, 其特征在于: 所述步骤S2中改 进的词典权 重调整的BM25算法, 具体为:权 利 要 求 书 1/3 页 2 CN 114757184 A 2通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配, 得到两者之间的相似度得分加权和, 也就是问题文本Q和文本段落D的相似度得分, 其中词 典权重调整的BM25算法具体如公式(1) ‑(4): 其中, P1、 P2分别为问题核心词和领域词典词的权重; k3为词qi的权重, 词的优先级别越 高, 权重值越大, 对相似度得分加权和的影响越大; score(D,Q)为问题文本Q和文本段落D的 相似度得分; n为问题文本Q分词后得到的词的数量; i为正整数; IDF(qi)为qi的逆向文档频 率; R(qi,D)为词qi与文本段落D的相关性得分; N为全部文本段落数.; dfi为包含词qi的文本 段落数; f(qi,D)为qi在文本段落D中出现的频率; k1为第一调节因子; |D|为文本段落D的长 度, avgdl 为所有文本段落的平均长度; b为第二调节因子 。 4.根据权利要求1所述的实现航空领域知识问答的方法, 其特征在于: 所示步骤S3具体 为: 通过航空领域的文本数据训练得到面向航空领域 微调后的Ber t模型; 本发明对Bert的输入采用了三个嵌入量相加的方式, 包括: 字嵌入量Token   Embeddings, 片段 嵌入量Segment  Embeddings, 和位置嵌入 量Position Embeddings三个向 量; Token Embeddings通过建立字向量表将每 个字符转换成一个一维向量; Segment Embeddings对输入的句 子对进行区分, 若输入的是一个句子, 那么Segement   embeddings对句子的各个字 符赋值全部为0; 若输入的超过一个句子, 则第一个句子的各个 字符赋值 为0, 后面句子的各个字符赋值 为1; Position Embeddings用于得到位置嵌入量; X表示输入序列, X由字符xi组成, 表示输入序列中的第i个字符, 将X经过Token   Embeddings、 Segment  Embeddings和Position  Embeddings处理后得到的三个嵌入量相加 后, 再输入面向航空领域 微调后的Ber t模型, 得到 字符xi对应的特 征向量 5.根据权利要求4所述的实现航空领域知识问答的方法, 其特征在于: 所示步骤S3中 Position Embeddings用于得到位置嵌入量, 的具体方式为: 每个字符的位置嵌入量PE根据式(5)或(6)确定: 权 利 要 求 书 2/3 页 3 CN 114757184 A 3

.PDF文档 专利 实现航空领域知识问答的方法和系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实现航空领域知识问答的方法和系统 第 1 页 专利 实现航空领域知识问答的方法和系统 第 2 页 专利 实现航空领域知识问答的方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:58:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。