说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210727202.0 (22)申请日 2022.06.24 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 尉德利  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 郭树青 黄健 (51)Int.Cl. G06V 10/771(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于视觉转换器模型的图像处理方法、 训练 方法和设备 (57)摘要 本公开提供的基于视觉转换器模型的图像 处理方法、 训练方法和设备, 涉及人工智能中的 深度学习、 图像处理、 计算机视觉技术领域, 可应 用于人脸等场景。 该图像处理方法包括: 对待处 理图像进行特征提取, 得到第一初始特征信息, 其中, 所述第一初始特征信息包括所述待处理图 像的多个局部特征; 通过所述视觉转换器模型, 从所述多个局部特征中去除与第一掩码对应的 第一局部特征, 得到第二初始特征信息; 所述第 一掩码用于指示局部特征需剪除, 所述第二掩码 用于指示局部特征无需剪除; 通过所述视觉转换 器模型对所述第二初始特征信息进行图像处理, 得到图像处理结果。 进而, 通过采用上述方式, 可 以有效降低模型的计算 量。 权利要求书7页 说明书22页 附图8页 CN 115147669 A 2022.10.04 CN 115147669 A 1.一种基于 视觉转换器模型的图像处 理方法, 包括: 对待处理图像进行特征提取, 得到第 一初始特征信息, 其中, 所述第 一初始特征信 息包 括所述待处 理图像的多个局部特 征; 通过所述视觉转换器模型, 从所述多个局部特征中去除与第 一掩码对应的第 一局部特 征, 得到第二初始特征信息; 其中, 所述第二初始特征信息中包括所述多个局部特征中的与 第二掩码对应的第二局部特征; 所述视觉转换器模型中包括与所述多个局部特征中的局部 特征一一对应的掩码信息, 所述掩码信息为所述第一掩码或所述第二掩码; 所述第一掩码 用于指示局部特 征需剪除, 所述第二掩码用于指示局部特 征无需剪除; 通过所述视觉转换器模型对所述第二初始特征信息进行图像处理, 得到图像处理结 果。 2.根据权利要求1所述的方法, 其中, 所述第二初始特征信 息还包括: 占位符特征; 所述 占位符特征的维度与所述多个局部特征中的任一局部特征的维度相同; 所述占位符特征用 于指示零向量。 3.根据权利要求2所述的方法, 其中, 所述通过所述视觉转换器模型对所述第 二初始特 征信息进行图像处 理, 得到图像处 理结果, 包括: 对所述第 二初始特征信 息中的第 i个第二局部特征进行自相关计算处理, 得到所述第i 个第二局部特征的相关性系数集合; 其中, 所述相关性系数集合包括所述第i个第二局部特 征与所述第二初始特征信息中的每一局部特征之间的第一相关性系数; i为正整数, 且i的 取值范围为[1, m ], m为正整数, m为所述第二初始特 征信息中的第二局部特 征的数量; 对所述第 i个第二局部特征与 所述占位符特征进行相关性计算, 得到所述第 i个第二局 部特征的第二相关性系数; 通过所述视觉转换器模型, 并根据所述相关性系数集合、 所述第二相关性系数、 和所述 第一掩码的第一数量, 获取 所述图像处 理结果。 4.根据权利要求3所述的方法, 其中, 所述通过所述视觉转换器模型, 并根据所述相关 性系数集合、 所述第二相关性系 数、 和所述第一掩码的第一数量, 获取所述图像处理结果, 包括: 根据所述相关性系数集合、 所述第 二相关性系数、 和所述第 一数量进行系数求和, 得到 相关性信息; 对所述第一相关性系数、 和所述相关性信息进行归一化处理, 得到第一特征信息; 其 中, 所述第一特 征信息表征第二局部特 征之间的归一 化处理结果; 对所述第二相关性系数、 和所述相关性信息进行归一化处理, 得到第二特征信息; 其 中, 所述第二特 征信息表征第二局部特 征与占位符特 征之间的归一 化处理结果; 通过所述视觉转换器模型对所述第一特征信息和所述第二特征信息进行特征融合处 理, 得到所述图像处 理结果。 5.根据权利要求4所述的方法, 其中, 通过所述视觉转换器模型对所述第 一特征信 息和 所述第二特 征信息进行 特征融合处 理, 得到所述图像处 理结果, 包括: 基于所述视觉转换器模型的全连接层对所述第一特征信息和所述第二特征信息进行 非线性处 理, 得到特 征组合; 对所述特 征组合进行 特征处理, 得到所述图像处 理结果。权 利 要 求 书 1/7 页 2 CN 115147669 A 26.根据权利要求1 ‑5任一项所述的方法, 其中, 所述图像处理为以下的任意一种: 图像 分类、 图像识别、 图像分割。 7.一种应用于图像处 理的视觉转换器模型的训练方法, 包括: 对待训练图像进行特征提取, 得到所述待训练图像的第 一图像特征信 息, 其中, 所述第 一图像特 征信息中包括所述待训练图像的多个局部特 征; 根据所述第一图像特征信 息对第一初始模型进行训练, 得到第一损失函数; 其中, 所述 第一初始模型中包括与所述多个局部特征中的局部特征一一对应的掩码信息, 所述掩码信 息为第一掩码或第二掩码; 所述第一掩码用于指示局部特征需剪除, 所述第二掩码用于指 示局部特 征无需剪除; 所述第一损失函数用于指示局部特 征的重要性; 根据所述第一损 失函数, 确定所述第一图像特征信息中待剪除的局部特征; 并将与所 述待剪除的局部特征对应第二掩码调整为第一掩码, 得到视觉转换器模型; 其中, 所述视觉 转换器模型用于对待处 理图像进行图像处 理得到图像处 理结果。 8.根据权利要求7所述的方法, 其中, 根据所述第一损 失函数, 确定所述第一图像特征 信息中待剪除的局部特 征, 包括: 根据所述第一损失函数, 确定局部特征的重要性信息; 其中, 所述重要性信息表征局部 特征对于图像处 理的重要性; 根据所述重要性信息, 确定所述第一图像特 征信息中待剪除的局部特 征。 9.根据权利要求8所述的方法, 其中, 所述第 一损失函数中包括所述多个局部特征中的 局部特征一一对应的掩码信息; 根据所述第一损失函数, 确定局部特征的重要性信息, 包 括: 针对所述第一损 失函数中的第二掩码, 在所述第二掩码不变、 以及所述第一损 失函数 中的其他掩码信息不变时, 对所述第一损失函数进 行偏导计算处理, 得到梯度信息; 所述梯 度信息用于指示局部特 征的重要性; 根据所述梯度信 息, 确定所述多个局部特征中第 二掩码对应的第 二局部特征的重要性 信息。 10.根据权利要求9所述的方法, 其中, 根据 所述梯度信 息, 确定所述多个局部特征中第 二掩码对应的第二局部特 征的重要性信息, 包括: 根据所述梯度信息、 第一掩码以及第二掩码, 确定第二局部特 征的重要性信息 。 11.根据权利要求8所述的方法, 其中, 根据 所述第一损失函数, 确定局部特征的重要性 信息, 包括: 针对所述第一初始模型中的第二掩码, 将所述第二掩码调整为第一掩码, 以及保持所 述第一初始模型 的其他掩码信息不变, 得到第二初始模型; 根据所述第一图像特征信息对 所述第二初始模型进 行训练, 得到第二损失函数; 其中, 所述第二损失函数用于指示局部特 征的重要性; 根据所述第 一损失函数和所述第 二损失函数, 确定所述多个局部特征中第 二掩码对应 的第二局部特 征的重要性信息 。 12.根据权利要求11所述的方法, 其中, 根据所述第一损 失函数和所述第二损 失函数, 确定所述多个局部特 征中第二掩码对应的第二局部特 征的重要性信息, 包括: 对所述第 一损失函数与所述第 二损失函数进行求差处理, 得到差值信 息; 其中, 所述差权 利 要 求 书 2/7 页 3 CN 115147669 A 3

PDF文档 专利 基于视觉转换器模型的图像处理方法、训练方法和设备

文档预览
中文文档 38 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视觉转换器模型的图像处理方法、训练方法和设备 第 1 页 专利 基于视觉转换器模型的图像处理方法、训练方法和设备 第 2 页 专利 基于视觉转换器模型的图像处理方法、训练方法和设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:40:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。