说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210661517.X (22)申请日 2022.06.13 (71)申请人 中国矿业大 学 地址 221116 江苏省徐州市大 学路1号中国 矿业大学 (72)发明人 刘兵 王栋 刘明明 陆劲夫  李穗  (74)专利代理 机构 南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师 李悦声 (51)Int.Cl. G06V 10/25(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 20/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (54)发明名称 基于因果推理的图像标题自动生成方法 (57)摘要 本发明公开了一种基于因果图的因果推理 图像字幕生成方法, 适用于在图像字幕中使用。 构建基于详细 的因果图的因果推理方法图像字 幕CIIC框架, 包括非对齐特征Transformer编码 器和干预式Transformer解码器, 非对齐特 Transformer解码器包括顺序连接的FASTERR ‑ C N N 、干 预 式 目 标 检 测 器 I O D 和 标 准 的 Transformer编码器; 干预式Transformer解码器 为在标准的Tran sformer解码器的前馈神经网络 层模块之后插入一个因果干 预CI模块组成; 干预 式目标检测器IOD和干预式Transformer解码器 ITD联合控制视觉混淆因子和文本混淆因子对输 入图像先进行编码, 然后进行解码。 通过后门调 整能够消除混淆, 有效解决传统图像描述中对编 码图像中纠缠的视觉特征问题, 图像描述中具有 较强的鲁棒 性。 权利要求书5页 说明书10页 附图2页 CN 115239944 A 2022.10.25 CN 115239944 A 1.一种基于因果推理和Transformer的图像标题自动生成方法, 其特征在于: 构 建基于 详细的因果图的因果推理方法图像字幕CIIC框架, 因果图包括视觉 混淆因子和文本 混淆因 子; 所述因果推理方法图像字幕CIIC框架包括顺序连接的非对齐特征Transformer编码器 UFT和干预式Transformer解码器ITD, 其中非对齐特Transformer解码器包括顺序连接的 FASTER R‑CNN、 干预式目标检测器IOD和标准的Tran sformer编码器; 干 预式Tran sformer解 码器为在标准的Transformer 解码器的前馈神经网络层模块之后插入一个因果干预CI模块 组成; 干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和 文 本混淆因子对输入图像先进行编码, 然后进行解码; 其中非对齐特征Transformer编码器UFT先将IOD提取到的解混淆视觉特征与从同一幅 图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量, 通过自注意力和交叉注 意力进行集成, 再进行传统Transformer中的AddNorm操作和前馈传播操作, 得到的输出传 到下一层编码块中, 一共为L块, 即叠加L次编码; 干预式Transformer解码器ITD输入为当前 生成的句子部 分, 经过位置嵌入与掩码层与编码端最 终输出进 行交叉注意, 进行AddNorm操 作和前馈传播操作, 通过因果干预CI模块消除解码过程中的视觉和语言混淆, 再进行 AddNorm操作, 同样 重复L次解码, 得到最终预测输出; 因果干预CI模块将融合的视觉和语 言 的特征h2与视觉混淆因子D1和语言混淆因子D2的期望相结合; 干预式目标检测器IOD通过消除视觉混淆因子来分离基于区域的视觉特征: 通过干预 式对象感知器对感兴趣区域特征进行分离, 然后与更快的区域卷积神经网络FASTER  R‑CNN 的自底向上特性相结合, 作为Tr ansformer编码器的输入; 干预式目标检测器IOD将因果推 理整合到FASTER  R‑CNN提取到的图像特征中来应对传 统预训练模型提取到的视觉上的混 淆, 从而获得基于区域的非纠缠表示; 将解码阶段产生的结果输入干预式Transformer 解码 器ITD, 将因果干预引入传统的图像标题生成用到的Tr ansformer解码器中, 减轻解码过程 中的视觉和语言 混淆; 通过编码器和解码器同时建立视觉和语言概念, 减轻干预式目标检测器IOD和干预式 Transformer解码器ITD之间未被观察到的混淆因子, 消除视觉和语言混淆, 有效地消除发 生在视觉特征表示和标题生成中的伪相关, 最终生成更真实的图像标题。 2.根据权利要求1所述的基于因果推理和Transformer的图像标题自动生成方法, 其特 征在于: 具体步骤如下: 将所要生成标题的图像分别通过FASTER  R‑CNN提取出图像特征, 利用干预式目标检测 器IOD消除图像特 征中视觉混淆的区域特 征; 具体来说, 由于FASTER  R‑CNN目标检测器使用似然性估计法P(Y|X)作为分类器的训练 目标, 导致混淆因子Z引起的伪相关, P(Y|X)= ΣzP(Y|X, Z=z)P(Z=z|X) 其中X为基于 输入图像的区域视 觉特征, Z图像的视 觉混淆因子, Y为类别标签; 因此使用因果推理干预P(Y|do(X))作为对象检测的新分类器, 其 中do算子do( ·)起切 割链接Z→X的作用, 由于实际训练需要通过抽样来估计P(Y|do(X)), 训练时间过长, 因此通 过应用归一 化加权几何平均N WGM近似值, 干预式目标检测器输出的类别概 率为:权 利 要 求 书 1/5 页 2 CN 115239944 A 2其中concat表示矩阵拼接, 是第i个类标签, 是预训练分类器的x属于 类的概率输出; x表示具体输入的图像中的区域特征和yi c表示该区域对应的特征, X和Y 表示x和yi c的随机变量, x和yi c表示为具体的样本值; 将其中的混淆因子近似为固定混淆因子字典 n表示据集中的类 大小, zi表示第i个的平均RoI特征, 每个RoI特征由FASTE R R‑CNN预训练得来, 具体的IOD特 征提取器方法为, 先勾选特征图上的兴趣区域RoI, 使用更快的区域卷积神经网络FASTER   R‑CNN提取特征图上的兴趣区域RoI, 使用每个兴趣区域RoI的特征来分别预测边界框yB以 及带有周围视觉混淆因子干扰的类概率输出标签yC, 根据类别概率输出标签yC和混淆字典 Z, 通过执行do算子来预测最终类别标签yI以消除周围视 觉混淆因子 干扰; 利用干预式目标检测器IOD从所有兴趣区域RoI的候选区域中提取出解混淆的对象特 征作为IOD的特征, 由于提取自底向上的特征具有不同目标属性的判别能力, 将IOD特征与 从同一幅图像中提取的自底向上特征送入两个线性层映射生 成Q,K,V向量, 其中Q表 示查询 向量, K表 示查询信息与其他信息相关性的向量, V表 示被查询 信息的向量, 通过自注意力和 交叉注意力进行集成, 以促进CIIC模型的视觉表示; 由于自底向上的特征和IOD特征不对 齐, 因此引入了多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整它 们, 将自底向上的特 征和IOD特 征输入UFT编码器进行对齐和融合操作: 设从图像中提取的自底向上特征和IOD特征分别为 和 其中m≠n 且d1≠d2, 利用Transformer网络中所构造的两个线性层 将XF和XI转换为共同的d维空 间, 并 分别用 和 表示, 选择 作为主要视觉特征, 并利用下式通过主要视觉特征学习 的交叉注意力: 其中MultiHead( ·)表示标准Transformer的多头注意力函数, 是在 上的 相应特征, 同样地, 建立关于 的多头注意力模型: 三个 中找多头自注意力, 即Q、 K、 V均来自于 因此注意 都有相同的形状, 然后用残差标准层Ad dNorm对 进行融合封装, 融合后的特 征信息F如下 所示: 其中LayerNorm表示层 标准化, 最后, 将融合后的特征信息F送入作为Transformer中的 前馈神经网络的F FN模块, 生成UFT的编码结果; 为了缓解参与的视觉特征和对应含义的单词之间的虚假相关性, 构建标准 Transformer 解码器结构, 基于标准Transformer解码器结构将因果干预模块CI整合到每个 Transformer解码器层中, 将编码器中获得基于区域的非纠缠表示与文本作为解码器的输权 利 要 求 书 2/5 页 3 CN 115239944 A 3

PDF文档 专利 基于因果推理的图像标题自动生成方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于因果推理的图像标题自动生成方法 第 1 页 专利 基于因果推理的图像标题自动生成方法 第 2 页 专利 基于因果推理的图像标题自动生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:40:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。