专利 基于视觉转换器模型的图像处理方法、训练方法和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210727202.0 (22)申请日 2022.06.24 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人尉德利　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 专利代理师郭树青　黄健 (51)Int.Cl. G06V 10/771(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于视觉转换器模型的图像处理方法、训练方法和设备 (57)摘要本公开提供的基于视觉转换器模型的图像处理方法、训练方法和设备，涉及人工智能中的深度学习、图像处理、计算机视觉技术领域，可应用于人脸等场景。该图像处理方法包括：对待处理图像进行特征提取，得到第一初始特征信息，其中，所述第一初始特征信息包括所述待处理图像的多个局部特征；通过所述视觉转换器模型，从所述多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；通过所述视觉转换器模型对所述第二初始特征信息进行图像处理，得到图像处理结果。进而，通过采用上述方式，可以有效降低模型的计算量。权利要求书7页说明书22页附图8页 CN 115147669 A 2022.10.04 CN 115147669 A 1.一种基于视觉转换器模型的图像处理方法，包括：对待处理图像进行特征提取，得到第一初始特征信息，其中，所述第一初始特征信息包括所述待处理图像的多个局部特征；通过所述视觉转换器模型，从所述多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；其中，所述第二初始特征信息中包括所述多个局部特征中的与第二掩码对应的第二局部特征；所述视觉转换器模型中包括与所述多个局部特征中的局部特征一一对应的掩码信息，所述掩码信息为所述第一掩码或所述第二掩码；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；通过所述视觉转换器模型对所述第二初始特征信息进行图像处理，得到图像处理结果。 2.根据权利要求1所述的方法，其中，所述第二初始特征信息还包括：占位符特征；所述占位符特征的维度与所述多个局部特征中的任一局部特征的维度相同；所述占位符特征用于指示零向量。 3.根据权利要求2所述的方法，其中，所述通过所述视觉转换器模型对所述第二初始特征信息进行图像处理，得到图像处理结果，包括：对所述第二初始特征信息中的第 i个第二局部特征进行自相关计算处理，得到所述第i 个第二局部特征的相关性系数集合；其中，所述相关性系数集合包括所述第i个第二局部特征与所述第二初始特征信息中的每一局部特征之间的第一相关性系数； i为正整数，且i的取值范围为[1， m ]， m为正整数， m为所述第二初始特征信息中的第二局部特征的数量；对所述第 i个第二局部特征与所述占位符特征进行相关性计算，得到所述第 i个第二局部特征的第二相关性系数；通过所述视觉转换器模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，获取所述图像处理结果。 4.根据权利要求3所述的方法，其中，所述通过所述视觉转换器模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，获取所述图像处理结果，包括：根据所述相关性系数集合、所述第二相关性系数、和所述第一数量进行系数求和，得到相关性信息；对所述第一相关性系数、和所述相关性信息进行归一化处理，得到第一特征信息；其中，所述第一特征信息表征第二局部特征之间的归一化处理结果；对所述第二相关性系数、和所述相关性信息进行归一化处理，得到第二特征信息；其中，所述第二特征信息表征第二局部特征与占位符特征之间的归一化处理结果；通过所述视觉转换器模型对所述第一特征信息和所述第二特征信息进行特征融合处理，得到所述图像处理结果。 5.根据权利要求4所述的方法，其中，通过所述视觉转换器模型对所述第一特征信息和所述第二特征信息进行特征融合处理，得到所述图像处理结果，包括：基于所述视觉转换器模型的全连接层对所述第一特征信息和所述第二特征信息进行非线性处理，得到特征组合；对所述特征组合进行特征处理，得到所述图像处理结果。权　利　要　求　书 1/7 页 2 CN 115147669 A 26.根据权利要求1 ‑5任一项所述的方法，其中，所述图像处理为以下的任意一种：图像分类、图像识别、图像分割。 7.一种应用于图像处理的视觉转换器模型的训练方法，包括：对待训练图像进行特征提取，得到所述待训练图像的第一图像特征信息，其中，所述第一图像特征信息中包括所述待训练图像的多个局部特征；根据所述第一图像特征信息对第一初始模型进行训练，得到第一损失函数；其中，所述第一初始模型中包括与所述多个局部特征中的局部特征一一对应的掩码信息，所述掩码信息为第一掩码或第二掩码；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；所述第一损失函数用于指示局部特征的重要性；根据所述第一损失函数，确定所述第一图像特征信息中待剪除的局部特征；并将与所述待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，所述视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。 8.根据权利要求7所述的方法，其中，根据所述第一损失函数，确定所述第一图像特征信息中待剪除的局部特征，包括：根据所述第一损失函数，确定局部特征的重要性信息；其中，所述重要性信息表征局部特征对于图像处理的重要性；根据所述重要性信息，确定所述第一图像特征信息中待剪除的局部特征。 9.根据权利要求8所述的方法，其中，所述第一损失函数中包括所述多个局部特征中的局部特征一一对应的掩码信息；根据所述第一损失函数，确定局部特征的重要性信息，包括：针对所述第一损失函数中的第二掩码，在所述第二掩码不变、以及所述第一损失函数中的其他掩码信息不变时，对所述第一损失函数进行偏导计算处理，得到梯度信息；所述梯度信息用于指示局部特征的重要性；根据所述梯度信息，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息。 10.根据权利要求9所述的方法，其中，根据所述梯度信息，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息，包括：根据所述梯度信息、第一掩码以及第二掩码，确定第二局部特征的重要性信息。 11.根据权利要求8所述的方法，其中，根据所述第一损失函数，确定局部特征的重要性信息，包括：针对所述第一初始模型中的第二掩码，将所述第二掩码调整为第一掩码，以及保持所述第一初始模型的其他掩码信息不变，得到第二初始模型；根据所述第一图像特征信息对所述第二初始模型进行训练，得到第二损失函数；其中，所述第二损失函数用于指示局部特征的重要性；根据所述第一损失函数和所述第二损失函数，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息。 12.根据权利要求11所述的方法，其中，根据所述第一损失函数和所述第二损失函数，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息，包括：对所述第一损失函数与所述第二损失函数进行求差处理，得到差值信息；其中，所述差权　利　要　求　书 2/7 页 3 CN 115147669 A 3

专利 基于视觉转换器模型的图像处理方法、训练方法和设备

专利基于视觉转换器模型的图像处理方法、训练方法和设备