说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211298048.6 (22)申请日 2022.10.22 (71)申请人 清华大学 地址 100084 北京市海淀区清华园 (72)发明人 彭良瑞 丁宁 刘长松 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 张润 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/146(2022.01) G06V 30/19(2022.01) G06V 10/766(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于多任务学习的场景文本检测方法 及系统 (57)摘要 本发明公开了一种基于多任务学习的场景 文本检测方法及系统, 该方法包括: 将场景图像 输入至文本检测模型, 文本检测模型, 包括主干 网络、 特征金字塔网络、 区域候选网络和检测 网 络, 其中, 利用主干网络和特征金字塔网络对场 景图像进行特征提取, 得到多尺度特征图, 将多 尺度特征图输入区域候选网络得到候选区域特 征图, 并利用检测网络对候选区域特征图进行文 本检测得到文本检测结果; 其中, 检测 网络的结 构, 包括外接框回归分支、 掩膜预测分支与文本 识别分支的多任务学习级 联细化网络结构。 本发 明对于场景图像复杂的前景和背景变化有较强 的适应能力, 可以提高文本 检测性能。 权利要求书2页 说明书7页 附图3页 CN 115546778 A 2022.12.30 CN 115546778 A 1.一种基于多任务学习的场景文本检测方法, 其特 征在于, 包括以下步骤: 将场景图像输入至文本检测模型, 所述文本检测模型, 包括主干网络、 特征金字塔网 络、 区域候选网络和检测网络, 其中, 利用所述主干网络和所述特征金字塔网络对所述场景图像进行特征提取, 得到多尺度 特征图, 将所述多尺度特征图输入所述区域候选网络得到候选区域特征图, 并利用所述检 测网络对所述候选区域特征图进行文本检测得到文本检测结果; 其中, 所述检测网络的结 构, 包括外 接框回归分支、 掩膜预测分支与文本识别分支的多任务学习级联细化网络结构。 2.根据权利要求1所述的方法, 其特征在于, 在所述将场景图像输入至文本检测模型之 前, 所述方法, 还 包括: 对所述场景图像的色彩属性信息进行随机调整操作, 得到色彩空间变换图像; 对所述场景图像随机进行旋转和剪切操作, 得到几何 空间变换图像; 基于所述色彩空间变换图像和所述几何 空间变换图像得到数据增强后的场景图像。 3.根据权利要求2所述的方法, 其特征在于, 所述主干网络, 包括多个Swin Transformer主干网络; 所述利用主干网络和所述特征金字塔网络对所述场景图像进行特 征提取, 得到多尺度特 征图, 包括: 将所述多个Sw in Transformer主干网络组合得到组合主干网络; 将数据增强后的场景图像输入所述组合主干网络进行特征提取, 得到初始多尺度 特征 图; 以及, 将所述初始多尺度特 征图输入所述特 征金字塔网络, 输出 得到多尺度特 征图。 4.根据权利要求3所述的方法, 其特征在于, 在所述利用检测网络对所述候选区域特征 图进行文本检测得到文本检测结果之前, 所述方法, 还 包括: 将多尺度特 征图输入所述区域 候选网络得到候选区域, 并截取候选区域特 征图; 根据所述候选区域特征图的长宽比例得到排列 方向预测结果, 基于所述排列方向预测 结果对所述 候选区域特 征图进行 预设角度的旋转操作得到 旋转后特 征图。 5.根据权利要求4所述的方法, 其特征在于, 所述利用检测网络对所述候选区域特征图 进行文本检测得到文本检测结果, 包括: 将所述旋转后特征图输入所述外接框回归分支进行外接框回归操作和文本/非文本分 类判决得到文本外接框, 并输入所述掩膜预测分支进行像素级的分割操作得到掩膜, 以及 输入所述文本识别分支得到文本识别结果; 在模型训练阶段, 基于所述文本外接框、 掩膜和文本识别结果进行外接框回归、 掩膜预 测和文本识别的多任务学习; 在模型测试阶段, 利用所述掩膜生成最小外接四边形得到所 述文本检测结果。 6.一种基于多任务学习的场景文本检测系统, 其特 征在于, 包括: 数据输入模块, 用于将场景图像输入至文本检测模型, 所述文本检测模型, 包括主干网 络、 特征金字塔网络、 区域 候选网络和检测网络, 其中, 文本检测模块, 用于利用所述主干网络和所述特征金字塔网络对所述场景图像进行特 征提取, 得到多尺度特征图, 将所述多尺度特征图输入所述区域候选网络得到候选区域特 征图, 并利用所述检测网络对所述候选区域特征图进 行文本检测得到文本检测结果; 其中, 所述检测网络的结构, 包括外接框回归分支、 掩膜预测分支与文本识别分支的多任务学习权 利 要 求 书 1/2 页 2 CN 115546778 A 2级联细化网络结构。 7.根据权利要求6所述的系统, 其特征在于, 在所述数据输入模块之前, 所述系统, 还包 括预处理模块, 用于: 对所述场景图像的色彩属性信息进行随机调整操作, 得到色彩空间变换图像; 对所述场景图像随机进行旋转和剪切操作, 得到几何 空间变换图像; 基于所述色彩空间变换图像和所述几何 空间变换图像得到数据增强后的场景图像。 8.根据权利要求7所述的系统, 其特征在于, 所述主干网络, 包括多个Swin Transformer主干网络; 所述文本检测模块, 还用于: 将所述多个Sw in Transformer主干网络组合得到组合主干网络; 将数据增强后的场景图像输入所述组合主干网络进行特征提取, 得到初始多尺度 特征 图; 以及, 将所述初始多尺度特 征图输入所述特 征金字塔网络, 输出 得到多尺度特 征图。 9.根据权利要求8所述的系统, 其特 征在于, 所述系统, 还 包括特征旋转模块, 用于: 将多尺度特 征图输入所述区域 候选网络得到候选区域, 并截取候选区域特 征图; 根据所述候选区域特征图的长宽比例得到排列 方向预测结果, 基于所述排列方向预测 结果对所述 候选区域特 征图进行 预设角度的旋转操作得到 旋转后特 征图。 10.根据权利要求9所述的系统, 其特 征在于, 所述文本检测模块, 还用于: 将所述旋转后特征图输入所述外接框回归分支进行外接框回归操作和文本/非文本分 类判决得到文本外接框, 并输入所述掩膜预测分支进行像素级的分割操作得到掩膜, 以及 输入所述文本识别分支得到文本识别结果; 在模型训练阶段, 基于所述文本外接框、 掩膜和文本识别结果进行外接框回归、 掩膜预 测和文本识别的多任务学习; 在模型测试阶段, 利用所述掩膜生成最小外接四边形得到所 述文本检测结果。权 利 要 求 书 2/2 页 3 CN 115546778 A 3
专利 一种基于多任务学习的场景文本检测方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 16:55:42
上传分享
举报
下载
原文档
(625.9 KB)
分享
友情链接
GB-T 34953.4-2020 信息技术 安全技术 匿名实体鉴别 第4部分:基于弱秘密的机制.pdf
GB-T 36548-2018 电化学储能系统接入电网测试规范.pdf
T-CAAPA 0005—2023 无动力游乐设施 绳网.pdf
NY-T 693-2020 澳洲坚果 果仁.pdf
GB-T 43243-2023 机关事务信息化基础数据规范.pdf
GB-T 22033-2017 信息技术 嵌入式系统术语.pdf
T-CIATCM 030.9—2019 中医临床护理信息基本数据集 第9部分:消毒供应中心记录.pdf
GB-T 30297-2013 氯碱工业用全氟离子交换膜 应用规范.pdf
GB-T 25068.5-2021 信息技术 安全技术 网络安全 第5部分:使用虚拟专用网的跨网通信安全保护.pdf
信通院 数据安全风险分析及应对策略研究-2022年.pdf
GB 17167-2006 用能单位能源计量器具配备和管理通则.pdf
法律法规 青海省行政机构设置和编制管理条例2004-05-29.pdf
网络数据安全管理条例(征求意见稿).pdf
NIST.SP.800-53Ar4 Assessing Security and Privacy Controls in Federal Information Systems and Organizations.pdf
奇安信 2020年Android平台恶意样本整体态势分析报告.pdf
GB-T 2007.2-1987 散装矿产品取样、制样通则 手工制样方法.pdf
GB-T 18788-2008 平板式扫描仪通用规范.pdf
T-ZSA 37—2020 移动智能终端密码技术政企应用指南.pdf
GB-T 40428-2021 电动汽车传导充电电磁兼容性要求和试验方法.pdf
GB-T 38634.1-2020 系统与软件工程 软件测试 第1部分:概念和定义.pdf
交流群
-->
1
/
3
13
评价文档
赞助2元 点击下载(625.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。