说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210238820.9 (22)申请日 2022.03.11 (65)同一申请的已公布的文献号 申请公布号 CN 114297394 A (43)申请公布日 2022.04.08 (73)专利权人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 陶建华 杨国花 马文杰 张大伟 何佳毅 (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 李永叶 (51)Int.Cl. G06F 16/35(2019.01)G06F 16/36(2019.01) 审查员 李洁 (54)发明名称 对文本中的事件论元进行抽取的方法和电 子设备 (57)摘要 本公开涉及一种对文本中的事件论元进行 抽取的方法和电子设备, 该方法包括: 对待处理 文本中包含的事件类型进行检测, 得到目标事件 类型; 根据该目标事件类型及对应的目标论元角 色的先验关联信息, 构造得到论元抽取问题; 将 待处理文本和论元抽取问题进行拼接, 得到目标 文本; 将该目标文本的表示向量输入至机器阅读 理解模型中, 该模型包括两层依序设置的分类 器, 第一层分类器同步对该目标文本是否存在答 案、 对答案的开始位置和结束位置进行识别预 测, 得到携带有答案指示标签的位置预测结果; 第二层分类器对开始位置和结束位置进行配对 组合后的预测实体是否为事件论元进行预测, 得 到答案预测结果; 根据该答案预测结果和对应的 标签, 输出事 件论元。 权利要求书3页 说明书17页 附图5页 CN 114297394 B 2022.07.01 CN 114297394 B 1.一种对文本中的事 件论元进行抽取的方法, 其特 征在于, 包括: 对待处理文本中包 含的事件类型进行检测, 得到目标事 件类型; 根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信 息, 构 造得到针对所述待处 理文本的论元抽取问题; 将所述待处 理文本和所述 论元抽取问题进行拼接, 得到拼接后的目标文本; 将所述目标文本的表示向量输入至机器阅读理解模型中, 所述机器阅读理解模型包括 两层依序设置的分类器, 第一层分类器同步对所述 目标文本是否存在答案、 对答案的开始 位置和结束位置进行识别预测, 得到携带有答案指示标签的位置预测结果; 在一个论元角 色对应于多个论元实体的场景下, 基于第一层分类器得到同一个论元角色对应的多个开始 位置和多个结束位置; 第二层分类器对所述位置预测结果中所述多个开始 位置和所述多个 结束位置进行配对组合后的预测实体是否为事 件论元进行 预测, 得到答案预测结果; 以及 根据所述答案预测结果和对应的答案指示标签, 输出与 所述目标事件类型对应匹配的 事件论元; 其中, 所述第 一层分类器包括三个分类器, 分别为第 一分类器、 第二分类器和第 三分类 器, 所述第一分类器用于预测所述 目标文本中是否存在针对所述论元抽取问题的答案, 得 到的预测结果为所述答案指示标签, 所述第二分类器用于预测所述表示向量对应的每个词 素是否为答案的开始 位置, 所述第三分类器用于预测所述表示向量对应的每个词素是否为 答案的结束位置; 所述阅读理解模型通过以下 方式构建得到: 对待训练文本中包 含的事件类型进行检测, 得到候选事 件类型; 根据所述候选事件类型和所述候选事件类型对应的候选论元角色的先验关联信 息, 构 造得到针对所述待训练文本的训练用论元抽取问题; 将所述待训练文本和所述训练用论元抽取问题进行拼接, 得到拼接后的目标训练文 本; 将所述目标训练文本的表示向量输入至待训练阅读理解模型中, 所述待训练阅读理解 模型的第一层分类器同步对所述目标训练文本是否存在答案、 对答案的开始 位置和结束位 置进行识别预测, 得到携带有候选答案指示标签的候选位置预测结果; 所述待训练阅读理 解模型的第二层分类器对所述候选位置预测结果中开始位置和结束位置进行配对组合后 的候选预测实体是否为候选事件论元进行预测, 得到候选答案预测结果, 将所述 目标训练 文本的真实值作为标签来对所述待训练阅读理解模型进行训练, 训练完成的待训练阅读理 解模型为所述机器阅读理解模型; 所述待训练阅读理解模型的损失函数包含两部分: 答案指示标签损失函数和事件论元 抽取损失函数, 所述事件论元抽取损失函数为第一交叉熵损失函数、 第二交叉熵损失函数、 第三交叉熵损失函数与各自对应权重之间的加权和; 所述第一交叉熵损失函数、 所述第二 交叉熵损失函数和所述第三交叉熵损失函数 各自对应的权 重为预设参数且三 者之和为1; 所述第一交叉熵损失函数为进行开始位置识别预测对应的交叉熵损失函数; 所述第二交叉熵损失函数为进行 结束位置识别预测对应的交叉熵损失函数; 所述第三交叉熵损失函数为进行开始位置和结束位置匹配预测对应的交叉熵损失函 数;权 利 要 求 书 1/3 页 2 CN 114297394 B 2所述答案指示标签损失函数为进行答案指示标签识别对应的交叉熵损失函数。 2.根据权利要求1所述的方法, 其特征在于, 所述目标文本的表示向量为字节对编码向 量、 分段向量和位置向量 这三种向量进行拼接后的拼接向量形式。 3.根据权利要求1所述的方法, 其特征在于, 所述目标论元角色的先验关联信息包括: 所述目标论元角色对应的关键词描述信息、 标注文档定义信息、 事件 先验信息; 所述事件先 验信息包括以下至少一种: 实体 类型、 实体列举实例; 所述根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信 息, 构造得到针对所述待处 理文本的论元抽取问题, 包括以下至少一种: 采用在一已知事件中提问所述目标论元角色对应的关键词描述信息的方式来构造得 到论元抽取问题; 或者, 采用在一已知事件中提问所述目标论元角色对应的标注文档定义信息的方式来构造 得到论元抽取问题; 或者, 采用在一已知事件中提问所述目标论元角色对应的事件先验信息的方式来构造得到 论元抽取问题; 所述已知事 件为所述目标事 件类型对应的事 件。 4.根据权利要求1所述的方法, 其特征在于, 所述对待处理文本中包含的事件类型进行 检测, 得到目标事 件类型, 包括: 将所述待处理文本的文本编码向量输入至预训练语言模型中, 输出得到所述待处理文 本对应的隐层向量; 将所述隐层向量输入至条件随机场模型中, 输出得到与 所述待处理文本对应的最优文 本标签序列, 所述条件随机场模型用于建模标签之间的关系; 以及 根据所述最优文本标签序列, 得到所述待处理文本的目标事件类型及所对应的事件触 发词。 5.根据权利要求1所述的方法, 其特征在于, 根据 所述答案预测结果和对应的答案指示 标签, 输出与所述目标事 件类型对应匹配的事 件论元, 包括: 当所述答案指示标签指示所述目标文本不存在答案时, 所述答案预测结果中包含的事 件论元预测实体 被视为无效, 输出不存在与上述目标事 件类型匹配的事 件论元的结果; 当所述答案指示标签指示所述目标文本存在答案时, 所述答案预测结果中包含的事件 论元预测实体被视为有效, 将所述答案预测结果中的事件论元预测实体作为待输出的事件 论元, 并将所述待输出的事 件论元与对应的目标事 件类型进行匹配后输出。 6.一种对文本中的事 件论元进行抽取的装置, 其特 征在于, 包括: 事件类型检测模块, 用于对待处理文本中包含的事件类型进行检测, 得到目标事件类 型; 问题构造模块, 用于根据所述目标事件类型和所述目标事件类型对应的目标论元角色 的先验关联信息, 构造得到针对所述待处 理文本的论元抽取问题; 文本生成模块, 用于将所述待处理文本和所述论元抽取问题进行拼接, 得到拼接后的 目标文本; 事件论元抽取模块, 用于将所述目标文本的表示向量输入至机器阅读理解模型中, 所 述机器阅读理解模型包括两层依序设置的分类器, 第一层分类器同步对所述目标文本是否权 利 要 求 书 2/3 页 3 CN 114297394 B 3
专利 对文本中的事件论元进行抽取的方法和电子设备
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:18
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
OWASP ASVS应用安全验证标准 4.0.3 中文版.pdf
GB-T 42806-2023 婴童用品 餐具与喂食器具通用技术要求.pdf
GB-T 18959-2023 木材保管规程.pdf
GB-T 38360-2019 裸露坡面植被恢复技术规范.pdf
GB-T 32815-2016 硅基MEMS制造技术 体硅压阻加工工艺规范.pdf
奇安信 2022医疗卫生行业网络安全分析报告.pdf
数据安全管理总纲.pdf
SL 47-2020 水工建筑物岩石地基开挖施工技术规范.pdf
GB 17625.1-2022 电磁兼容 限值 第1部分:谐波电流发射限值 设备每相输入电流≤16A.pdf
T-WSJD 29—2022 化妆品安全评估 毒理学关注阈值法.pdf
GB-T 37606-2019 钛-钢复合管.pdf
GB-T 7729-2021 冶金产品化学分析 分光光度法通则.pdf
GB-T 24917-2010 眼镜阀.pdf
T-CSPSTC 78—2021 顶管法管道工程技术规程.pdf
GB-T 32007-2015 汽车零部件的统一编码与标识.pdf
GB-T 27011-2019 合格评定 认可机构要求.pdf
SN-T 5415.4-2022 输“一带一路”沿线国家产品安全项目检验指南 纺织品 第4部分:东南亚.pdf
TB-T 1720-2017 铁道客车及动车组给水装置.pdf
JR-T 0036-2016 再保险数据交换规范.pdf
T-GDCA 023—2023 化妆品用原料 二裂酵母发酵产物溶胞产物.pdf
交流群
-->
1
/
3
26
评价文档
赞助2元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。