(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210095359.6
(22)申请日 2022.01.26
(71)申请人 西安理工大 学
地址 710048 陕西省西安市碑林区金花 南
路5号
(72)发明人 朱虹 张雨嘉 杜森 史静 王栋
(74)专利代理 机构 西安弘理专利事务所 61214
专利代理师 弓长
(51)Int.Cl.
G06F 16/36(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
提高图像文本描述独特多样性的网络构建
方法
(57)摘要
本发明公开了一种提高图像文本描述独特
多样性的网络构建方法, 包括构建网络模型图像
数据集, 提取图像数据集的全局特征gks和抽象
场景图节 点的区域特征, 用编码器对抽象场景图
节点区域特 征进行编码, 得到最终的区域特 征
对
取平均值得到平均区域编码特
征
将
和gks融合, 得到编码阶段输出
的全局特征
将全局特征
通过双层解
码器解码, 得到输出
并将
通过图更新模
块更新区域特征, 重新计算节点权重, 生成下一
个单词, 以此类推; 构建单词精细模块和单词校
正模块, 使用标准的交叉熵损失训练网络, 完成
网络构建。 本发 明构建的网络在保持文本语句准
确率的同时更 具有独特、 多样的描述。
权利要求书4页 说明书10页 附图2页
CN 114625882 A
2022.06.14
CN 114625882 A
1.一种提高图像文本描述独特多样性的网络构建方法, 其特 征在于, 包括以下步骤:
步骤1, 构建网络模型图像数据集;
步骤2, 提取图像数据集的全局特 征gks和抽象场景图节点的区域特 征;
步骤3, 用编码器对抽象场景图节点区域特征进行编码, 得到最终的区域特征
对
取平均值得到平均区域编码特征
将
和gks融合, 得到编码阶段输出的全局
特征
步骤4, 将全局特征
通过双层解码器解码, 得到输出
并将
通过图更新模块更
新区域特 征, 重新计算节点权 重, 生成下一个单词, 以此类 推;
步骤5, 构建单词精细模块, 选择 出更准确更独特的单词;
步骤6, 构建单词校正模块, 通过 单词校正模块输出语句;
步骤7, 使用标准的交叉熵损失训练网络, 完成网络构建。
2.根据权利1所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于,
所述步骤1的具体过程如下:
步骤1.1, 建立训练及验证图像数据集
选用数据集图像样本和标签作为特征提取网络的数据样本, 数据集的90%作为训练
集, 其余作为验证集, 统称为样本图像;
步骤1.2, 建立控制条件数据集
通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图, 确定每幅图像中的
对象节点、 属性节点和关系节点, 训练样本和验 证样本图像数据集的抽象场景图ASG记为Gks
=(Nks,Eks), ks=1,2,...,Ns, Ns为数据集中的样本个数, 样本集合的ASG节点集合为Nks=
[node1ks,node2ks,...,nodeNeks], nodekks∈{o,a,r}, k=1,2,...,Ne, Ne为节点个数, ASG的
边集合为Eks=[ei,j]Ne×Ne, ei,j∈{0,1}。
3.根据权利2所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于,
所述步骤2的具体过程如下:
步骤2.1, 建立描述文本的语义词典
从训练集和验证集样本的标注中, 选择出现频次最高的前m个单词, 组成语义概念集
合, m的取值范 围为[10000,12000], 对每个单词分配一个整数序号, 再加上三个特殊位: 开
始标志位、 结束标志位和低频词 位, 共m+3个整数序号构成词典; 利用建立的词典对数据集
样本进行语义词典标注, 语义属性标注为Yks,
是第t个单词在文本
语义词典中的排序 序号, t=1,2,. ..,Lks, Lks是数据集样本中第ks幅图像的文本描述长度;
步骤2.2, 提取全局特 征
采用ResNet网络提取样本图像的全局特征gks, 取卷积网络 ResNet中最后一层平均池化
层的输出M1维特征向量描述图像的全局特 征;
步骤2.3, 提取抽象场景图节点的区域特 征
取Faster ‑RCNN网络的全连接fc7层作为图像区域特征, 提取所有ASG节点Nks的区域特
征
对于nodekks=o的目标节点,
为在对应的区域上提取的特征; 对于nodekks=a的属权 利 要 求 书 1/4 页
2
CN 114625882 A
2性节点,
与其连接的对象节点的区域特征相同, 对于nodekks=r的关系节点,
从涉及到
的两个关联目标的联合区域中提取。
4.根据权利 3所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于,
所述步骤3中编码器包括节点嵌入 模块和图卷积模块, 步骤3具体过程如下:
步骤3.1, 将代表不同节点 的区域特征
输入节点嵌入模块, 进行节点嵌入增强, 得到
具有节点属性感知的区域特 征Zkks:
其中, Wr是3×M1大小的节点嵌入矩阵, Wr[1], Wr[2], Wr[3]分别表示Wr的第1、 2、 3行,
是第k个节点的属性, posk是M1维的位置嵌入向量, 当节点为属性节点时增大Wr[2]的
权重系数, 用来区分连接同一对象的不同属性节点的顺序, 其中:
步骤3.2, 将节点特 征Zkks输入图卷积模块进行编码, 得到最终的区域特 征
其中,
表示节点k在关系s下 的邻居节点, σ 是ReLU激活函数,
是由网络学出 的第l
层的关系s的参数;
步骤3.3, 特 征融合
对
取平均值得到平均区域编码特征
将
和gks融合, 得到编码阶段输 出的
全局特征
5.根据权利4所述的一种提高 图像文本描述独特多样性的网络构建方法, 其特征在于,
所述步骤4中双层解码器包括双层LSTM模块, 图注意力模块和图更新模块, 步骤4的具体过
程如下:
步骤4.1, 构建双层LSTM模块, 双层LSTM模块由注意LSTM和语言LSTM构成, t时刻注意
LSTM的输入为全局特 征
输出为
其中, θa是网络参数, Wt‑1为词表特征, Drop为 dropout操作,
为t‑1时刻语言LSTM的
输出;权 利 要 求 书 2/4 页
3
CN 114625882 A
3
专利 提高图像文本描述独特多样性的网络构建方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:58:33上传分享