(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221027412 2.4
(22)申请日 2022.03.20
(66)本国优先权数据
202210113149.5 202 2.01.30 CN
(71)申请人 西北大学
地址 710069 陕西省西安市太白北路2 29号
(72)发明人 赵国英 任梅 彭进业 李展
王琳 赵万青 杨文静
(74)专利代理 机构 西安恒泰知识产权代理事务
所 61216
专利代理师 王芳
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于GCN的多标签图像分类方法、 模型构建
方法及装置
(57)摘要
本发明公开了一种基于GCN的多标签图像 分
类方法、 模型构建方法及装置, 包括预处理模块、
模型构建模块和训练模块; 预处理模块, 用于对
已知数据集进行预处理, 得到预处理后的数据集
图像; 训练模块, 用于将预处理后的数据集图像
输入多标签图像 分类模型进行训练, 以多个标签
在图像上出现的概率为输出, 得到训练好的多 标
签图像分类模型; 模型构建模块, 用于构建多标
签图像分类模 型并将其发送给训练模块。 本发明
结合了注 意力机制模块和图卷积网络, 通过对原
始图像特征在空间和通道上获取注意力图以及
通过图卷积网络获取更具鉴别意义的类别语义,
有效加强了图像显著部分的特征和避免了感兴
趣部分特 征的丢失, 提升 了网络的输出精度。
权利要求书2页 说明书7页 附图2页
CN 114612681 A
2022.06.10
CN 114612681 A
1.一种基于 图卷积网络的多标签图像分类模型构建装置, 其特征在于, 包括预处理模
块、 模型构建模块和训练模块; 其中:
预处理模块, 用于对已知数据集进行预处理, 得到预处理后的数据集图像, 并将其发送
给训练模块;
训练模块, 用于将预处理后的数据集图像输入多标签图像分类模型进行训练, 以多个
标签在图像上 出现的概 率为输出, 得到训练好的多标签图像分类模型;
模型构建模块, 用于构建多标签图像分类模型并将其发送给训练模块; 该多标签图像
分类模型包括依次相连接的图像特征提取模块、 注意力机制模块、 特征向量转换模块、 图卷
积网络乘积模块和输出 预测模块: 其中:
特征提取模块, 用于对预处理后的数据集图像进行图像特征提取, 得到图像的特征图,
并将特征图发送给注意力机制模块;
注意力机制模块, 用于对输入的特征图F进行注意力 机制处理, 得到新的特征图f, 然后
将新的特 征图f发送给 特征向量转换模块;
特征向量转换模块, 用于将注意力机制模块发来的新的特征图f进行维度的转换得到
类别语义, 并将其送入图卷积网络混合模块;
图卷积网络乘积模块, 包含第 一图卷积网络、 第 二图卷积网络和乘法器; 所述第 一图卷
积网络的输入端连接特征向量转换模块的输出端, 用于对特征向量模块发来的类别语义o
进行处理, 获取单张图像标签之 间的相关性, 并发送给乘法器; 所述第二图卷积网络以数据
集的标签的先验特征为输入, 得到标签嵌入, 并发送给乘法器; 乘法器用于将第一图卷积网
络和第二图卷积网络的输出进行相乘, 得到类别语义O={O0,O1,…OC‑1}, 并将类别语义O送
入输出预测模块;
输出预测模块, 用于实现以下功能: 将图卷积网络混合模块发送来的类别语义O采用全
连接网络转换成各个标签相对应的得分, 从而得到所有标签对应的得分向量为s={s0,
s1…,sC‑1}; 然后通过sigmo id函数得到得分向量s对应的概 率向量p={p0,p1…,pC‑1}。
2.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置, 其特征在于,
所述预处 理包括对图像进行翻转、 分割和尺寸统一。
3.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置, 其特征在于,
所述特征提取模块采用残差网络, 并对残差网络输出 的数据采用池化操作进行处理, 得到
特征图F。
4.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置, 其特征在于,
所述注意力机制模块包括通道注意力模块、 空间注意力模块、 两个乘法器和加法器, 其中,
所述特征提取模块输出 的特征图F分别送入通道注意力模块和空间注意力模块, 通道注意
力模块用于对特征提取模块发来的特征图F进行通道注意力特征图的提取, 得到通道注意
力特征图Mc; 所述空间注意力模块用于对特征提取模块发来的特征图F进行空间注意力特
征图的提取, 得到空间注意力特征图M s; 所述特征提取模块输出的特征图F分别与通道注 意
力特征图Mc和空间注意力特征图Ms通过乘法器相乘, 得到通道特征图和空间特征图, 通道
特征图和空间特征图分别输出到加法器, 加法器用于实现通道特征图和空间特征图的自适
应参数相加, 得到新的特 征图f, 并发送给 特征向量转换模块。
5.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置, 其特征在于,权 利 要 求 书 1/2 页
2
CN 114612681 A
2通过注意力机制模块中获得新的特 征图f:
f=γ(MC*F)+(1‑γ)(MS*F)
MC=σ(MLP(Avgpo ol(F))
MS=σ(f7*7(MaxPool(F))
式中, γ为自适应参数, MC为通道注意力特征图, MS为空间注意力特征图, F为特征提取
模块发来的特征图F, σ 为激活函数, AvgPool、 MxaPool分别代表平均池化和最大池化, f7*7
()是卷积核大小为7*7的卷积 操作。
6.一种基于 图卷积网络的多标签图像分类模型的构建方法, 其特征在于, 包括如下步
骤:
步骤1, 对数据集分别进行 预处理, 得到预处 理后的数据集图像;
步骤2, 构建多标签图像分类模型;
所述多标签图像分类模型包括依次相连接的图像特征提取模块、 注意力机制模块、 特
征向量转换模块、 图卷积网络乘积模块和输出 预测模块; 其中:
特征提取模块, 用于对预处理后的数据集图像进行图像特征提取, 得到图像的特征图,
并将特征图发送给注意力机制模块;
注意力机制模块, 用于对输入的特征图F进行注意力 机制处理, 得到新的特征图f, 然后
将新的特 征图f发送给 特征向量转换模块;
特征向量转换模块, 用于将注意力机制模块发来的新的特征图f进行维度的转换得到
类别语义, 并将其送入图卷积网络混合模块;
图卷积网络乘积模块, 包含第 一图卷积网络、 第 二图卷积网络和乘法器; 所述第 一图卷
积网络的输入端连接特征向量转换模块的输出端, 用于对特征向量模块发来的类别语义o
进行处理, 获取单张图像标签之 间的相关性, 并发送给乘法器; 所述第二图卷积网络以数据
集的标签的先验特征为输入, 得到标签嵌入, 并发送给乘法器; 乘法器用于将第一图卷积网
络和第二图卷积网络的输出进行相乘, 得到类别语义O={O0,O1,…OC‑1}, 并将类别语义O送
入输出预测模块;
输出预测模块, 用于实现以下功能: 将图卷积网络混合模块发送来的类别语义O采用全
连接网络转换成各个标签相对应的得分, 从而得到所有标签对应的得分向量为s={s0,
s1…,sC‑1}; 然后通过sigmo id函数得到得分向量s对应的概 率向量p={p0,p1…,pC‑1}。
步骤3, 训练模型:
将步骤1预处理后的数据集图像输入步骤2输出的多标签图像分类模型进行训练, 以多
个标签在图像上 出现的概 率为输出, 得到训练好的多标签图像分类模型。
7.一种基于图卷积网络的多标签图像分类方法, 其特 征在于, 具体包括以下步骤:
步骤1, 采集待测试的图像, 对其进行 预处理;
步骤2, 对处理后的图像输入至权利要求1~6任一项得到的训练好的基于图卷积网络
的多标签图像分类模型中, 获得 标签输出概 率。权 利 要 求 书 2/2 页
3
CN 114612681 A
3
专利 基于GCN的多标签图像分类方法、模型构建方法及装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:36上传分享