说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210307561.0 (22)申请日 2022.03.25 (71)申请人 北京明略昭辉科技有限公司 地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 李犇 张杰 于皓 (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 曾军 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 实体识别的方法和装置、 电子 设备和存储介 质 (57)摘要 本申请提供了一种实体识别的方法和装置、 电子设备和存储介质, 其中, 该方法包括: 获取待 识别的目标文本数据; 将目标文本数据输入目标 模型内, 得到目标文本数据属于的目标实体类 别, 其中, 目标模型用于得到文本数据的标注信 息, 并根据标注信息识别出目标实体类别, 目标 模型是通过对第三模型进行第三模型参数调整 后, 得到的最终模型, 第三模型为沿用第二模型 内的第二模型参数, 对训练集进行预训练的模 型, 第二模 型为对第一模型进行预设次数的迭代 训练后得到的模 型, 预设次数是利用第四模型对 训练集进行处理得到的。 通过本申请, 解决了相 关技术中存在的人工标注的成本高、 时效低、 数 据漏标和标错的问题。 权利要求书2页 说明书12页 附图3页 CN 114626380 A 2022.06.14 CN 114626380 A 1.一种实体识别的方法, 其特 征在于, 所述方法包括: 获取待识别的目标文本数据; 将所述目标文本数据输入目标模型内, 得到所述目标文本数据属于的目标实体类别, 其中, 所述 目标模型用于得到所述文本数据的标注信息, 并根据所述标注信息识别出所述 目标实体类别, 所述 目标模型是通过对第三模型进行第三模型参数调整后, 得到的最终模 型, 所述第三模型为沿用第二模型内的第二模型参数, 对训练集进 行预训练的模 型, 所述第 二模型为对第一模型进行预设次数的迭代训练后得到的模型, 所述预设次数是利用第四模 型对所述训练集进行处 理得到的。 2.根据权利要求1所述的方法, 其特征在于, 在所述获取待识别的目标文本数据之前, 所述方法还 包括: 获取训练文本数据; 按照预设方案对所述训练文本数据内的字符进行片段式拼接, 生成多个片段序列; 将所述片段序列内的每个字符与 预设实体名称进行文本匹配, 确定出所述训练文本数 据属于的实体 类型; 将所述训练文本数据与所述实体 类型作为所述训练集。 3.根据权利要求2所述的方法, 其特征在于, 所述按照预设方案对所述训练文本数据内 的字符进行片段式拼接, 生成多个片段序列包括: 将所述训练文本数据按照单字符形式进行划分, 并对划分后的每个字符进行字符标 注; 对所述字符标注进行片段式拼接, 生成多个所述片段序列。 4.根据权利要求3所述的方法, 其特征在于, 所述对所述字符标注进行片段式拼接, 生 成多个所述片段序列包括: 确定出预设窗口长度, 其中, 所述预设窗口长度为每个所述片段序列内所允许包含的 字符总数的最大值; 在所述预设窗口长度的范围内, 将每个片段中包含的头字符和尾字符进行拼接, 得到 多个所述片段序列, 其中, 每 个所述片段包 含至少一个字符。 5.根据权利要求2所述的方法, 其特征在于, 在所述将所述训练文本数据与 所述实体类 型作为所述训练集之后, 所述方法还 包括: 根据所述训练文本数据和所述第一模型, 生成每 个所述片段序列对应的多个隐向量; 将多个所述隐向量输入所述第 一模型的前馈神经网络, 得到每个所述隐向量属于所述 实体类型的第一 概率数值; 根据所述第一概率数值, 经过所述预设次数的跌代, 调整所述第一模型的第一模型参 数, 得到所述第二模型; 基于所述第二模型和多个所述片段序列, 调整所述第三模型的第三模型参数, 得到所 述目标模型。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述第 二模型和多个所述片段序 列, 调整所述第三模型的第三模型参数, 得到所述目标模型包括: 利用所述第二模型的第二模型参数初始化所述第三模型, 其中, 当前所述第三模型内 的第三模型参数等于所述第二模型参数;权 利 要 求 书 1/2 页 2 CN 114626380 A 2将多个所述隐向量输入所述第 三模型中, 得到每个所述片段序列属于所述实体类型的 参考概率数值; 利用均方差损 失函数训练所述第三模型, 调整所述第三模型的所述第三模型参数, 直 到所述参考概率数值大于或者等于预设阈值, 得到所述目标模 型, 其中, 所述预设阈值为停 止调整所述第三模型参数的最小值。 7.根据权利要求6所述的方法, 其特征在于, 所述利用均方差损失函数训练所述第 三模 型, 调整所述第三模型 的所述第三模型参数, 直到所述参考概率数值大于或者等于预设阈 值, 得到所述目标模型包括: 将多个所述片段序列输入所述第三模型的第一子模型中, 得到第二 概率数值; 基于所述第二概率数值, 利用所述均方差损 失函数训练所述第三模型的第二子模型, 直到完成所述预设次数的迭代, 得到训练后的第二子模型的第二子模型参数; 利用所述第 二子模型参数更新所述第 一子模型中的第 一子模型参数, 得到更新后的第 一子模型; 将多个所述隐向量输入更新后的第一子模型, 得到第三 概率数值; 基于所述第三概率数值, 调整所述第二子模型参数, 直到所述第二子模型输出的所述 参考概率数值大于或者等于所述预设阈值, 停止调整所述第二子模型参数, 得到所述 目标 模型。 8.一种实体识别的装置, 其特 征在于, 所述装置包括: 第一获取 单元, 用于获取待识别的目标文本数据; 第一输入单元, 用于将所述目标文本数据输入目标模型内, 得到所述目标文本数据属 于的目标实体类别, 其中, 所述目标模 型用于得到所述文本数据的标注信息, 并根据所述标 注信息识别出所述目标实体类别, 所述目标模型是通过对第三模型进 行第三模型参数调整 后, 得到的最 终模型, 所述第三模型为沿用第二模 型内的第二模型参数, 对训练集进 行预训 练的模型, 所述第二模型为对第一模型进行预设次数 的迭代训练后得到的模型, 所述预设 次数是利用第四模型对所述训练集进行处 理得到的。 9.一种电子设备, 包括处理器、 通信接口、 存储器和通信总线, 其中, 所述处理器、 所述 通信接口和所述存 储器通过 所述通信总线完成相互间的通信, 其特 征在于, 所述存储器, 用于存 储计算机程序; 所述处理器, 用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1 至7中任一项所述的方法步骤。 10.一种计算机可读的存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其 中, 所述计算机程序被处 理器执行时实现权利要求1至7中任一项中所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114626380 A 3
专利 实体识别的方法和装置、电子设备和存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:13
上传分享
举报
下载
原文档
(621.8 KB)
分享
友情链接
GB 42250-2022 信息安全技术 网络安全专用产品安全技术要求.pdf
GB-T 43290-2023 电子商务逆向物流通用服务规范.pdf
T-JSJXXH 008—2022 一般用变频无油螺杆鼓风机.pdf
T-SZSA 015—2017 COB LED 光源封装产品技术规范.pdf
DB52-T 1239.2-2017 政府数据 核心元数据 第2部分:法人单位基础数据 贵州省.pdf
T-GRM 010—2020 金属非金属矿山粉尘治理技术标准.pdf
GB-T 5000-2018 日用陶瓷名词术语.pdf
GM-T 0117-2022 网络身份服务密码应用技术要求.pdf
T-ISC-0011-2021 数据安全治理能力评估方法.pdf
YD-T 4058-2022 电信网和互联网安全防护基线配置要求和检测要求 大数据组件.pdf
NB-T 10333-2019 水电工程场内交通道路设计规范.pdf
数据安全培训规范.pdf
GB-T 14591-2016 水处理剂 聚合硫酸铁.pdf
GB-T 37044-2018 信息安全技术 物联网安全参考模型及通用要求.pdf
T-STSI 43—2023 人工智能算力资源池技术规范.pdf
SN-T 0987.7-2013 出口危险货物中型散装容器检验规程 第7部分:纤维板中型散装容器.pdf
中国移动 5g r17、r18技术解读.pdf
T-SLIA 001—2019 食品接触材料及制品、饰品 表面积的测定 三维模型重建法.pdf
SN-T 0761.1-2011 进出口危险品打火机检验规程.pdf
T-CSAE 75.2—2021 汽车防锈包装规程 第2部分:动力总成及其主要零部件.pdf
交流群
-->
1
/
3
18
评价文档
赞助2元 点击下载(621.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。