专利 基于因果推理的图像标题自动生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210661517.X (22)申请日 2022.06.13 (71)申请人中国矿业大学地址 221116 江苏省徐州市大学路1号中国矿业大学 (72)发明人刘兵　王栋　刘明明　陆劲夫　李穗　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师李悦声 (51)Int.Cl. G06V 10/25(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 20/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (54)发明名称基于因果推理的图像标题自动生成方法 (57)摘要本发明公开了一种基于因果图的因果推理图像字幕生成方法，适用于在图像字幕中使用。构建基于详细的因果图的因果推理方法图像字幕CIIC框架，包括非对齐特征Transformer编码器和干预式Transformer解码器，非对齐特 Transformer解码器包括顺序连接的FASTERR ‑ C N N 、干预式目标检测器 I O D 和标准的 Transformer编码器；干预式Transformer解码器为在标准的Tran sformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成；干预式目标检测器IOD和干预式Transformer解码器 ITD联合控制视觉混淆因子和文本混淆因子对输入图像先进行编码，然后进行解码。通过后门调整能够消除混淆，有效解决传统图像描述中对编码图像中纠缠的视觉特征问题，图像描述中具有较强的鲁棒性。权利要求书5页说明书10页附图2页 CN 115239944 A 2022.10.25 CN 115239944 A 1.一种基于因果推理和Transformer的图像标题自动生成方法，其特征在于：构建基于详细的因果图的因果推理方法图像字幕CIIC框架，因果图包括视觉混淆因子和文本混淆因子；所述因果推理方法图像字幕CIIC框架包括顺序连接的非对齐特征Transformer编码器 UFT和干预式Transformer解码器ITD，其中非对齐特Transformer解码器包括顺序连接的 FASTER R‑CNN、干预式目标检测器IOD和标准的Tran sformer编码器；干预式Tran sformer解码器为在标准的Transformer 解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成；干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文本混淆因子对输入图像先进行编码，然后进行解码；其中非对齐特征Transformer编码器UFT先将IOD提取到的解混淆视觉特征与从同一幅图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量，通过自注意力和交叉注意力进行集成，再进行传统Transformer中的AddNorm操作和前馈传播操作，得到的输出传到下一层编码块中，一共为L块，即叠加L次编码；干预式Transformer解码器ITD输入为当前生成的句子部分，经过位置嵌入与掩码层与编码端最终输出进行交叉注意，进行AddNorm操作和前馈传播操作，通过因果干预CI模块消除解码过程中的视觉和语言混淆，再进行 AddNorm操作，同样重复L次解码，得到最终预测输出；因果干预CI模块将融合的视觉和语言的特征h2与视觉混淆因子D1和语言混淆因子D2的期望相结合；干预式目标检测器IOD通过消除视觉混淆因子来分离基于区域的视觉特征：通过干预式对象感知器对感兴趣区域特征进行分离，然后与更快的区域卷积神经网络FASTER R‑CNN 的自底向上特性相结合，作为Tr ansformer编码器的输入；干预式目标检测器IOD将因果推理整合到FASTER R‑CNN提取到的图像特征中来应对传统预训练模型提取到的视觉上的混淆，从而获得基于区域的非纠缠表示；将解码阶段产生的结果输入干预式Transformer 解码器ITD，将因果干预引入传统的图像标题生成用到的Tr ansformer解码器中，减轻解码过程中的视觉和语言混淆；通过编码器和解码器同时建立视觉和语言概念，减轻干预式目标检测器IOD和干预式 Transformer解码器ITD之间未被观察到的混淆因子，消除视觉和语言混淆，有效地消除发生在视觉特征表示和标题生成中的伪相关，最终生成更真实的图像标题。 2.根据权利要求1所述的基于因果推理和Transformer的图像标题自动生成方法，其特征在于：具体步骤如下：将所要生成标题的图像分别通过FASTER R‑CNN提取出图像特征，利用干预式目标检测器IOD消除图像特征中视觉混淆的区域特征；具体来说，由于FASTER R‑CNN目标检测器使用似然性估计法P(Y|X)作为分类器的训练目标，导致混淆因子Z引起的伪相关， P(Y|X)＝ ΣzP(Y|X， Z＝z)P(Z＝z|X) 其中X为基于输入图像的区域视觉特征， Z图像的视觉混淆因子， Y为类别标签；因此使用因果推理干预P(Y|do(X))作为对象检测的新分类器，其中do算子do( ·)起切割链接Z→X的作用，由于实际训练需要通过抽样来估计P(Y|do(X))，训练时间过长，因此通过应用归一化加权几何平均N WGM近似值，干预式目标检测器输出的类别概率为：权　利　要　求　书 1/5 页 2 CN 115239944 A 2其中concat表示矩阵拼接，是第i个类标签，是预训练分类器的x属于类的概率输出； x表示具体输入的图像中的区域特征和yi c表示该区域对应的特征， X和Y 表示x和yi c的随机变量， x和yi c表示为具体的样本值；将其中的混淆因子近似为固定混淆因子字典 n表示据集中的类大小， zi表示第i个的平均RoI特征，每个RoI特征由FASTE R R‑CNN预训练得来，具体的IOD特征提取器方法为，先勾选特征图上的兴趣区域RoI，使用更快的区域卷积神经网络FASTER R‑CNN提取特征图上的兴趣区域RoI，使用每个兴趣区域RoI的特征来分别预测边界框yB以及带有周围视觉混淆因子干扰的类概率输出标签yC，根据类别概率输出标签yC和混淆字典 Z，通过执行do算子来预测最终类别标签yI以消除周围视觉混淆因子干扰；利用干预式目标检测器IOD从所有兴趣区域RoI的候选区域中提取出解混淆的对象特征作为IOD的特征，由于提取自底向上的特征具有不同目标属性的判别能力，将IOD特征与从同一幅图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量，其中Q表示查询向量， K表示查询信息与其他信息相关性的向量， V表示被查询信息的向量，通过自注意力和交叉注意力进行集成，以促进CIIC模型的视觉表示；由于自底向上的特征和IOD特征不对齐，因此引入了多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整它们，将自底向上的特征和IOD特征输入UFT编码器进行对齐和融合操作：设从图像中提取的自底向上特征和IOD特征分别为和其中m≠n 且d1≠d2，利用Transformer网络中所构造的两个线性层将XF和XI转换为共同的d维空间，并分别用和表示，选择作为主要视觉特征，并利用下式通过主要视觉特征学习的交叉注意力：其中MultiHead( ·)表示标准Transformer的多头注意力函数，是在上的相应特征，同样地，建立关于的多头注意力模型：三个中找多头自注意力，即Q、 K、 V均来自于因此注意都有相同的形状，然后用残差标准层Ad dNorm对进行融合封装，融合后的特征信息F如下所示: 其中LayerNorm表示层标准化，最后，将融合后的特征信息F送入作为Transformer中的前馈神经网络的F FN模块，生成UFT的编码结果；为了缓解参与的视觉特征和对应含义的单词之间的虚假相关性，构建标准 Transformer 解码器结构，基于标准Transformer解码器结构将因果干预模块CI整合到每个 Transformer解码器层中，将编码器中获得基于区域的非纠缠表示与文本作为解码器的输权　利　要　求　书 2/5 页 3 CN 115239944 A 3

专利 基于因果推理的图像标题自动生成方法

专利基于因果推理的图像标题自动生成方法