专利 视频处理方法及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211099158.X (22)申请日 2022.09.09 (71)申请人阿里巴巴（中国）有限公司地址 310023 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人岑俊　裴逸璇　张士伟　吕逸良　赵德丽　 (74)专利代理机构北京太合九思知识产权代理有限公司 1 1610 专利代理师孙明子　刘戈 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06N 20/00(2019.01) (54)发明名称视频处理方法及设备 (57)摘要本发明实施例提供了一种视频处理方法及设备；其中，视频处理方法包括：获取待处理视频的多个视频帧；确定多个视频帧各自对应的可学习参数，可学习参数通过视频行为识别模型所获得，其中，所述视频行为识别模型为机器学习模型；基于多个视频帧各自对应的可学习参数对多个视频帧进行融合，获得与待处理视频相对应的融合帧。上述视频处理方法由于融合帧的数据量小于待处理视频的数据量，进而以融合帧代表视频进行存储，有效地减少了数据存储所需要占用的存储空间，并且能够在有限的存储空间中存储大量的融合帧，之后可以基于存储的融合帧进行模型优化操作或者更新操作，有效地保证了模型更新时数据类别的多样性以及数量的充足性。权利要求书3页说明书29页附图5页 CN 115205763 A 2022.10.18 CN 115205763 A 1.一种视频处理方法，其特征在于，包括：获取待处理视频的多个视频帧；确定所述多个视频帧各自对应的可学习参数，所述可学习参数通过所述视频行为识别模型所获得，其中，所述视频行为识别模型为机器学习模型；基于所述多个视频帧各自对应的可学习参数对多个视频帧进行融合，获得与所述待处理视频相对应的融合帧。 2.根据权利要求1所述的方法，其特征在于，基于所述多个视频帧各自对应的可学习参数对多个视频帧进行融合，获得与所述待处理视频相对应的融合帧，包括：在所述可学习参数为大于零且小于1的数值时，基于所述多个视频帧各自对应的可学习参数对多个视频帧进行加权求和，获得所述融合帧；或者，在所述可学习参数为大于1的数值时，对所述多个视频帧各自对应的可学习参数进行归一化处理，获得与所述可学习参数相对应的归一化参数；基于所述归一化参数对多个视频帧进行加权求和，获得所述融合帧。 3.根据权利要求1所述的方法，其特征在于，确定所述多个视频帧各自对应的可学习参数，包括：获取与所述多个视频帧各自对应的初始化参数，所述初始化参数基于所述多个视频帧的数量所获得；基于所述初始化参数，确定与所述待处理视频相对应的初始融合帧；基于所述视频行为识别模型，获取与所述初始融合帧相对应的第一损失函数；基于所述第一损失函数对所述初始化参数进行调整，获得所述多个视频帧各自对应的可学习参数。 4.根据权利要求3所述的方法，其特征在于，基于所述视频行为识别模型，获取与所述初始融合帧相对应的第一损失函数，包括：基于所述视频行为识别模型，获取与所述初始融合帧相对应的融合帧特征、与所述待处理视频相对应的视频特征、与所述初始融合帧相对应的初始预测标签、以及与所述待处理视频相对应的标准标签；获取所述融合帧特征与所述视频特征之间的第一特征损失函数、以及所述初始预测标签与所述标准标签之间的第一标签损失函数；基于所述第一特征损失函数和所述第一标签损失函数，确定与所述初始融合帧相对应的第一损失函数。 5.根据权利要求1所述的方法，其特征在于，在获得与所述待处理视频相对应的融合帧之后，所述方法还包括：获取与所述待处理视频相对应的可学习信息，所述可学习信息用于标识待处理视频的空间信息和/或时间信息；对所述融合帧和所述可学习信息进行融合，获得目标融合帧。 6.根据权利要求5所述的方法，其特征在于，对所述融合帧和所述可学习信息进行融合，获得目标融合帧，包括：将所述可学习信息与所述融合帧进行逐像素求和处理，获得所述目标融合帧；或者，将所述可学习信息与所述融合帧进行逐像素乘积处理，获得所述目标融合帧；或者，权　利　要　求　书 1/3 页 2 CN 115205763 A 2将所述可学习信息与所述融合帧进行拼接处理，获得所述目标融合帧。 7.根据权利要求5所述的方法，其特征在于，获取与所述待处理视频相对应的可学习信息，包括：获取与所述待处理视频相对应的初始化信息；对所述初始化信息和所述融合帧进行融合，获得过程融合帧；基于所述视频行为识别模型，获取与所述过程融合帧相对应的第二损失函数；基于所述第二损失函数对所述初始化信息进行调整，获得所述多个视频帧各自对应的可学习信息。 8.根据权利要求7所述的方法，其特征在于，基于所述视频行为识别模型，获取与所述过程融合帧相对应的第二损失函数，包括：基于所述视频行为识别模型，获取与所述过程融合帧相对应的过程帧特征、与所述待处理视频相对应的视频特征、与所述过程融合帧相对应的帧预测标签、以及与所述待处理视频相对应的标准标签；获取所述过程帧特征与所述视频特征之间的第二特征损失函数、以及所述帧预测标签与所述标准标签之间的第二标签损失函数；基于所述第二特征损失函数和所述第二标签损失函数，确定与所述过程融合帧相对应的第二损失函数。 9.根据权利要求7所述的方法，其特征在于，在获取与所述过程融合帧相对应的第二损失函数之后，所述方法还包括：基于所述第二损失函数对所述可学习参数进行调整，获得与所述可学习参数相对应的目标学习参数。 10.根据权利要求1所述的方法，其特征在于，确定所述多个视频帧各自对应的可学习参数，包括：获取与所述多个视频帧各自对应的初始化参数以及与所述待处理视频相对应的初始化信息，所述初始化参数基于所述多个视频帧的数量所获得，所述初始化信息用于标识所述待处理视频相对应的空间信息和时间信息；基于所述初始化参数，确定与所述待处理视频相对应的初始融合帧；对所述初始融合帧和所述初始化信息进行融合，获得过程融合帧；基于所述视频行为识别模型，获取与所述过程融合帧相对应的第三损失函数；基于所述第三损失函数对所述初始化参数进行调整，获得所述多个视频帧各自对应的可学习参数。 11.根据权利要求10所述的方法，其特征在于，在获取与所述过程融合帧相对应的第三损失函数之后，所述方法还包括：基于所述第三损失函数对所述初始化信息进行调整，获得与所述待处理视频相对应的可学习信息。 12.根据权利要求10所述的方法，其特征在于，基于所述视频行为识别模型，获取与所述过程融合帧相对应的第三损失函数，包括：基于所述视频行为识别模型，获取与所述初始融合帧相对应的融合帧特征、与所述初始融合帧相对应的初始预测标签、与所述过程融合帧相对应的过程帧特征、与所述待处理权　利　要　求　书 2/3 页 3 CN 115205763 A 3

专利 视频处理方法及设备

专利视频处理方法及设备