说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210095359.6 (22)申请日 2022.01.26 (71)申请人 西安理工大 学 地址 710048 陕西省西安市碑林区金花 南 路5号 (72)发明人 朱虹 张雨嘉 杜森 史静 王栋  (74)专利代理 机构 西安弘理专利事务所 61214 专利代理师 弓长 (51)Int.Cl. G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 提高图像文本描述独特多样性的网络构建 方法 (57)摘要 本发明公开了一种提高图像文本描述独特 多样性的网络构建方法, 包括构建网络模型图像 数据集, 提取图像数据集的全局特征gks和抽象 场景图节 点的区域特征, 用编码器对抽象场景图 节点区域特 征进行编码, 得到最终的区域特 征 对 取平均值得到平均区域编码特 征 将 和gks融合, 得到编码阶段输出 的全局特征 将全局特征 通过双层解 码器解码, 得到输出 并将 通过图更新模 块更新区域特征, 重新计算节点权重, 生成下一 个单词, 以此类推; 构建单词精细模块和单词校 正模块, 使用标准的交叉熵损失训练网络, 完成 网络构建。 本发 明构建的网络在保持文本语句准 确率的同时更 具有独特、 多样的描述。 权利要求书4页 说明书10页 附图2页 CN 114625882 A 2022.06.14 CN 114625882 A 1.一种提高图像文本描述独特多样性的网络构建方法, 其特 征在于, 包括以下步骤: 步骤1, 构建网络模型图像数据集; 步骤2, 提取图像数据集的全局特 征gks和抽象场景图节点的区域特 征; 步骤3, 用编码器对抽象场景图节点区域特征进行编码, 得到最终的区域特征 对 取平均值得到平均区域编码特征 将 和gks融合, 得到编码阶段输出的全局 特征 步骤4, 将全局特征 通过双层解码器解码, 得到输出 并将 通过图更新模块更 新区域特 征, 重新计算节点权 重, 生成下一个单词, 以此类 推; 步骤5, 构建单词精细模块, 选择 出更准确更独特的单词; 步骤6, 构建单词校正模块, 通过 单词校正模块输出语句; 步骤7, 使用标准的交叉熵损失训练网络, 完成网络构建。 2.根据权利1所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于, 所述步骤1的具体过程如下: 步骤1.1, 建立训练及验证图像数据集 选用数据集图像样本和标签作为特征提取网络的数据样本, 数据集的90%作为训练 集, 其余作为验证集, 统称为样本图像; 步骤1.2, 建立控制条件数据集 通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图, 确定每幅图像中的 对象节点、 属性节点和关系节点, 训练样本和验 证样本图像数据集的抽象场景图ASG记为Gks =(Nks,Eks), ks=1,2,...,Ns, Ns为数据集中的样本个数, 样本集合的ASG节点集合为Nks= [node1ks,node2ks,...,nodeNeks], nodekks∈{o,a,r}, k=1,2,...,Ne, Ne为节点个数, ASG的 边集合为Eks=[ei,j]Ne×Ne, ei,j∈{0,1}。 3.根据权利2所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于, 所述步骤2的具体过程如下: 步骤2.1, 建立描述文本的语义词典 从训练集和验证集样本的标注中, 选择出现频次最高的前m个单词, 组成语义概念集 合, m的取值范 围为[10000,12000], 对每个单词分配一个整数序号, 再加上三个特殊位: 开 始标志位、 结束标志位和低频词 位, 共m+3个整数序号构成词典; 利用建立的词典对数据集 样本进行语义词典标注, 语义属性标注为Yks, 是第t个单词在文本 语义词典中的排序 序号, t=1,2,. ..,Lks, Lks是数据集样本中第ks幅图像的文本描述长度; 步骤2.2, 提取全局特 征 采用ResNet网络提取样本图像的全局特征gks, 取卷积网络 ResNet中最后一层平均池化 层的输出M1维特征向量描述图像的全局特 征; 步骤2.3, 提取抽象场景图节点的区域特 征 取Faster ‑RCNN网络的全连接fc7层作为图像区域特征, 提取所有ASG节点Nks的区域特 征 对于nodekks=o的目标节点, 为在对应的区域上提取的特征; 对于nodekks=a的属权 利 要 求 书 1/4 页 2 CN 114625882 A 2性节点, 与其连接的对象节点的区域特征相同, 对于nodekks=r的关系节点, 从涉及到 的两个关联目标的联合区域中提取。 4.根据权利 3所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于, 所述步骤3中编码器包括节点嵌入 模块和图卷积模块, 步骤3具体过程如下: 步骤3.1, 将代表不同节点 的区域特征 输入节点嵌入模块, 进行节点嵌入增强, 得到 具有节点属性感知的区域特 征Zkks: 其中, Wr是3×M1大小的节点嵌入矩阵, Wr[1], Wr[2], Wr[3]分别表示Wr的第1、 2、 3行, 是第k个节点的属性, posk是M1维的位置嵌入向量, 当节点为属性节点时增大Wr[2]的 权重系数, 用来区分连接同一对象的不同属性节点的顺序, 其中: 步骤3.2, 将节点特 征Zkks输入图卷积模块进行编码, 得到最终的区域特 征 其中, 表示节点k在关系s下 的邻居节点, σ 是ReLU激活函数, 是由网络学出 的第l 层的关系s的参数; 步骤3.3, 特 征融合 对 取平均值得到平均区域编码特征 将 和gks融合, 得到编码阶段输 出的 全局特征 5.根据权利4所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于, 所述步骤4中双层解码器包括双层LSTM模块, 图注意力模块和图更新模块, 步骤4的具体过 程如下: 步骤4.1, 构建双层LSTM模块, 双层LSTM模块由注意LSTM和语言LSTM构成, t时刻注意 LSTM的输入为全局特 征 输出为 其中, θa是网络参数, Wt‑1为词表特征, Drop为 dropout操作, 为t‑1时刻语言LSTM的 输出;权 利 要 求 书 2/4 页 3 CN 114625882 A 3

.PDF文档 专利 提高图像文本描述独特多样性的网络构建方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 提高图像文本描述独特多样性的网络构建方法 第 1 页 专利 提高图像文本描述独特多样性的网络构建方法 第 2 页 专利 提高图像文本描述独特多样性的网络构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:58:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。