(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210661517.X
(22)申请日 2022.06.13
(71)申请人 中国矿业大 学
地址 221116 江苏省徐州市大 学路1号中国
矿业大学
(72)发明人 刘兵 王栋 刘明明 陆劲夫
李穗
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 李悦声
(51)Int.Cl.
G06V 10/25(2022.01)
G06V 10/40(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)G06V 10/44(2022.01)
G06V 10/80(2022.01)
G06V 20/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/04(2006.01)
(54)发明名称
基于因果推理的图像标题自动生成方法
(57)摘要
本发明公开了一种基于因果图的因果推理
图像字幕生成方法, 适用于在图像字幕中使用。
构建基于详细 的因果图的因果推理方法图像字
幕CIIC框架, 包括非对齐特征Transformer编码
器和干预式Transformer解码器, 非对齐特
Transformer解码器包括顺序连接的FASTERR ‑
C N N 、干 预 式 目 标 检 测 器 I O D 和 标 准 的
Transformer编码器; 干预式Transformer解码器
为在标准的Tran sformer解码器的前馈神经网络
层模块之后插入一个因果干 预CI模块组成; 干预
式目标检测器IOD和干预式Transformer解码器
ITD联合控制视觉混淆因子和文本混淆因子对输
入图像先进行编码, 然后进行解码。 通过后门调
整能够消除混淆, 有效解决传统图像描述中对编
码图像中纠缠的视觉特征问题, 图像描述中具有
较强的鲁棒 性。
权利要求书5页 说明书10页 附图2页
CN 115239944 A
2022.10.25
CN 115239944 A
1.一种基于因果推理和Transformer的图像标题自动生成方法, 其特征在于: 构 建基于
详细的因果图的因果推理方法图像字幕CIIC框架, 因果图包括视觉 混淆因子和文本 混淆因
子;
所述因果推理方法图像字幕CIIC框架包括顺序连接的非对齐特征Transformer编码器
UFT和干预式Transformer解码器ITD, 其中非对齐特Transformer解码器包括顺序连接的
FASTER R‑CNN、 干预式目标检测器IOD和标准的Tran sformer编码器; 干 预式Tran sformer解
码器为在标准的Transformer 解码器的前馈神经网络层模块之后插入一个因果干预CI模块
组成; 干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和 文
本混淆因子对输入图像先进行编码, 然后进行解码;
其中非对齐特征Transformer编码器UFT先将IOD提取到的解混淆视觉特征与从同一幅
图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量, 通过自注意力和交叉注
意力进行集成, 再进行传统Transformer中的AddNorm操作和前馈传播操作, 得到的输出传
到下一层编码块中, 一共为L块, 即叠加L次编码; 干预式Transformer解码器ITD输入为当前
生成的句子部 分, 经过位置嵌入与掩码层与编码端最 终输出进 行交叉注意, 进行AddNorm操
作和前馈传播操作, 通过因果干预CI模块消除解码过程中的视觉和语言混淆, 再进行
AddNorm操作, 同样 重复L次解码, 得到最终预测输出; 因果干预CI模块将融合的视觉和语 言
的特征h2与视觉混淆因子D1和语言混淆因子D2的期望相结合;
干预式目标检测器IOD通过消除视觉混淆因子来分离基于区域的视觉特征: 通过干预
式对象感知器对感兴趣区域特征进行分离, 然后与更快的区域卷积神经网络FASTER R‑CNN
的自底向上特性相结合, 作为Tr ansformer编码器的输入; 干预式目标检测器IOD将因果推
理整合到FASTER R‑CNN提取到的图像特征中来应对传 统预训练模型提取到的视觉上的混
淆, 从而获得基于区域的非纠缠表示; 将解码阶段产生的结果输入干预式Transformer 解码
器ITD, 将因果干预引入传统的图像标题生成用到的Tr ansformer解码器中, 减轻解码过程
中的视觉和语言 混淆;
通过编码器和解码器同时建立视觉和语言概念, 减轻干预式目标检测器IOD和干预式
Transformer解码器ITD之间未被观察到的混淆因子, 消除视觉和语言混淆, 有效地消除发
生在视觉特征表示和标题生成中的伪相关, 最终生成更真实的图像标题。
2.根据权利要求1所述的基于因果推理和Transformer的图像标题自动生成方法, 其特
征在于: 具体步骤如下:
将所要生成标题的图像分别通过FASTER R‑CNN提取出图像特征, 利用干预式目标检测
器IOD消除图像特 征中视觉混淆的区域特 征;
具体来说, 由于FASTER R‑CNN目标检测器使用似然性估计法P(Y|X)作为分类器的训练
目标, 导致混淆因子Z引起的伪相关,
P(Y|X)= ΣzP(Y|X, Z=z)P(Z=z|X)
其中X为基于 输入图像的区域视 觉特征, Z图像的视 觉混淆因子, Y为类别标签;
因此使用因果推理干预P(Y|do(X))作为对象检测的新分类器, 其 中do算子do( ·)起切
割链接Z→X的作用, 由于实际训练需要通过抽样来估计P(Y|do(X)), 训练时间过长, 因此通
过应用归一 化加权几何平均N WGM近似值, 干预式目标检测器输出的类别概 率为:权 利 要 求 书 1/5 页
2
CN 115239944 A
2其中concat表示矩阵拼接,
是第i个类标签,
是预训练分类器的x属于
类的概率输出; x表示具体输入的图像中的区域特征和yi
c表示该区域对应的特征, X和Y
表示x和yi
c的随机变量, x和yi
c表示为具体的样本值;
将其中的混淆因子近似为固定混淆因子字典
n表示据集中的类
大小, zi表示第i个的平均RoI特征, 每个RoI特征由FASTE R R‑CNN预训练得来, 具体的IOD特
征提取器方法为, 先勾选特征图上的兴趣区域RoI, 使用更快的区域卷积神经网络FASTER
R‑CNN提取特征图上的兴趣区域RoI, 使用每个兴趣区域RoI的特征来分别预测边界框yB以
及带有周围视觉混淆因子干扰的类概率输出标签yC, 根据类别概率输出标签yC和混淆字典
Z, 通过执行do算子来预测最终类别标签yI以消除周围视 觉混淆因子 干扰;
利用干预式目标检测器IOD从所有兴趣区域RoI的候选区域中提取出解混淆的对象特
征作为IOD的特征, 由于提取自底向上的特征具有不同目标属性的判别能力, 将IOD特征与
从同一幅图像中提取的自底向上特征送入两个线性层映射生 成Q,K,V向量, 其中Q表 示查询
向量, K表 示查询信息与其他信息相关性的向量, V表 示被查询 信息的向量, 通过自注意力和
交叉注意力进行集成, 以促进CIIC模型的视觉表示; 由于自底向上的特征和IOD特征不对
齐, 因此引入了多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整它
们, 将自底向上的特 征和IOD特 征输入UFT编码器进行对齐和融合操作:
设从图像中提取的自底向上特征和IOD特征分别为
和
其中m≠n
且d1≠d2, 利用Transformer网络中所构造的两个线性层 将XF和XI转换为共同的d维空 间, 并
分别用
和
表示, 选择
作为主要视觉特征, 并利用下式通过主要视觉特征学习
的交叉注意力:
其中MultiHead( ·)表示标准Transformer的多头注意力函数,
是在
上的
相应特征, 同样地, 建立关于
的多头注意力模型:
三个
中找多头自注意力, 即Q、 K、 V均来自于
因此注意
都有相同的形状,
然后用残差标准层Ad dNorm对
进行融合封装, 融合后的特 征信息F如下 所示:
其中LayerNorm表示层 标准化, 最后, 将融合后的特征信息F送入作为Transformer中的
前馈神经网络的F FN模块, 生成UFT的编码结果;
为了缓解参与的视觉特征和对应含义的单词之间的虚假相关性, 构建标准
Transformer 解码器结构, 基于标准Transformer解码器结构将因果干预模块CI整合到每个
Transformer解码器层中, 将编码器中获得基于区域的非纠缠表示与文本作为解码器的输权 利 要 求 书 2/5 页
3
CN 115239944 A
3
专利 基于因果推理的图像标题自动生成方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:59上传分享