(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211099158.X
(22)申请日 2022.09.09
(71)申请人 阿里巴巴 (中国) 有限公司
地址 310023 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 岑俊 裴逸璇 张士伟 吕逸良
赵德丽
(74)专利代理 机构 北京太合九思知识产权代理
有限公司 1 1610
专利代理师 孙明子 刘戈
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06N 20/00(2019.01)
(54)发明名称
视频处理方法及设备
(57)摘要
本发明实施例提供了一种视频处理方法及
设备; 其中, 视频处理方法包括: 获取待处理视频
的多个视频帧; 确定多个视频帧各自对应的可学
习参数, 可学习参数通过视频行为识别模型所获
得, 其中, 所述视频行为识别模型为机器学习模
型; 基于多个视频帧各自对应的可学习参数对多
个视频帧进行融合, 获得与待处理视频相对应的
融合帧。 上述视频处理方法由于融合帧的数据量
小于待处理视频的数据量, 进而以融合帧代表视
频进行存储, 有效地减少了数据存储 所需要占用
的存储空间, 并且能够在有限的存储空间中存储
大量的融合帧, 之后可以基于存储的融合帧进行
模型优化操作或者更新操作, 有效地保证了模型
更新时数据类别的多样性以及数量的充足性。
权利要求书3页 说明书29页 附图5页
CN 115205763 A
2022.10.18
CN 115205763 A
1.一种视频处 理方法, 其特 征在于, 包括:
获取待处 理视频的多个视频帧;
确定所述多个视频帧各自对应的可学习参数, 所述可学习参数通过所述视频行为识别
模型所获得, 其中, 所述视频 行为识别模型为机器学习模型;
基于所述多个视频帧各自对应的可学习参数对多个视频帧进行融合, 获得与 所述待处
理视频相对应的融合帧。
2.根据权利要求1所述的方法, 其特征在于, 基于所述多个视频帧各自对应的可学习参
数对多个视频帧进行融合, 获得与所述待处 理视频相对应的融合帧, 包括:
在所述可学习参数为大于零且小于1的数值时, 基于所述多个视频帧各自对应的可学
习参数对多个视频帧进行加权求和, 获得 所述融合帧; 或者,
在所述可学习参数为大于1的数值时, 对所述多个视频帧各自对应的可学习参数进行
归一化处理, 获得与所述可学习参数相对应的归一化参数; 基于所述归一化参数对多个视
频帧进行加权求和, 获得 所述融合帧。
3.根据权利要求1所述的方法, 其特征在于, 确定所述多个视频帧各自对应的可学习参
数, 包括:
获取与所述多个视频帧各自对应的初始化参数, 所述初始化参数基于所述多个视频帧
的数量所获得;
基于所述初始化 参数, 确定与所述待处 理视频相对应的初始融合帧;
基于所述视频 行为识别模型, 获取与所述初始融合帧相对应的第一损失函数;
基于所述第 一损失函数对所述初始化参数进行调整, 获得所述多个视频帧各自对应的
可学习参数。
4.根据权利要求3所述的方法, 其特征在于, 基于所述视频行为识别模型, 获取与所述
初始融合帧相对应的第一损失函数, 包括:
基于所述视频行为识别模型, 获取与所述初始融合帧相对应的融合帧特征、 与所述待
处理视频相对应的视频特征、 与所述初始融合帧相对应的初始预测标签、 以及与所述待处
理视频相对应的标准标签;
获取所述融合帧特征与所述视频特征之间的第 一特征损失函数、 以及所述初始预测标
签与所述标准标签之间的第一标签损失函数;
基于所述第 一特征损失函数和所述第 一标签损失函数, 确定与 所述初始融合帧相对应
的第一损失函数。
5.根据权利要求1所述的方法, 其特征在于, 在获得与 所述待处理视频相对应的融合帧
之后, 所述方法还 包括:
获取与所述待处理视频相对应的可学习信 息, 所述可学习信 息用于标识待处理视频的
空间信息和/或时间信息;
对所述融合帧和所述可 学习信息进行融合, 获得目标融合帧。
6.根据权利要求5所述的方法, 其特征在于, 对所述融合帧和所述可学习信息进行融
合, 获得目标融合帧, 包括:
将所述可 学习信息与所述融合帧进行 逐像素求和处 理, 获得所述目标融合帧; 或者,
将所述可 学习信息与所述融合帧进行 逐像素乘积处 理, 获得所述目标融合帧; 或者,权 利 要 求 书 1/3 页
2
CN 115205763 A
2将所述可 学习信息与所述融合帧进行拼接处 理, 获得所述目标融合帧。
7.根据权利要求5所述的方法, 其特征在于, 获取与所述待处理视频相对应的可学习信
息, 包括:
获取与所述待处 理视频相对应的初始化信息;
对所述初始化信息和所述融合帧进行融合, 获得 过程融合帧;
基于所述视频 行为识别模型, 获取与所述过程融合帧相对应的第二损失函数;
基于所述第 二损失函数对所述初始化信 息进行调整, 获得所述多个视频帧各自对应的
可学习信息 。
8.根据权利要求7所述的方法, 其特征在于, 基于所述视频行为识别模型, 获取与所述
过程融合帧相对应的第二损失函数, 包括:
基于所述视频行为识别模型, 获取与所述过程融合帧相对应的过程帧特征、 与所述待
处理视频相对应的视频特征、 与所述过程融合帧相对应的帧预测标签、 以及与所述待处理
视频相对应的标准标签;
获取所述过程帧特征与所述视频特征之间的第 二特征损失函数、 以及所述帧预测标签
与所述标准标签之间的第二标签损失函数;
基于所述第 二特征损失函数和所述第 二标签损失函数, 确定与 所述过程融合帧相对应
的第二损失函数。
9.根据权利要求7所述的方法, 其特征在于, 在获取与 所述过程融合帧相对应的第 二损
失函数之后, 所述方法还 包括:
基于所述第 二损失函数对所述可学习参数进行调整, 获得与 所述可学习参数相对应的
目标学习参数。
10.根据权利要求1所述的方法, 其特征在于, 确定所述多个视频帧各自对应的可学习
参数, 包括:
获取与所述多个视频帧各自对应的初始化参数以及与所述待处理视频相对应的初始
化信息, 所述初始化参数基于所述多个视频帧的数量所获得, 所述初始化信息用于标识所
述待处理视频相对应的空间信息和时间信息;
基于所述初始化 参数, 确定与所述待处 理视频相对应的初始融合帧;
对所述初始融合帧和所述初始化信息进行融合, 获得 过程融合帧;
基于所述视频 行为识别模型, 获取与所述过程融合帧相对应的第三损失函数;
基于所述第 三损失函数对所述初始化参数进行调整, 获得所述多个视频帧各自对应的
可学习参数。
11.根据权利要求10所述的方法, 其特征在于, 在获取与 所述过程融合帧相对应的第 三
损失函数之后, 所述方法还 包括:
基于所述第 三损失函数对所述初始化信 息进行调整, 获得与 所述待处理视频相对应的
可学习信息 。
12.根据权利要求10所述的方法, 其特征在于, 基于所述视频行为识别模型, 获取与所
述过程融合帧相对应的第三损失函数, 包括:
基于所述视频行为识别模型, 获取与所述初始融合帧相对应的融合帧特征、 与所述初
始融合帧相对应的初始预测标签、 与所述过程融合帧相对应的过程帧特征、 与所述待处理权 利 要 求 书 2/3 页
3
CN 115205763 A
3
专利 视频处理方法及设备
文档预览
中文文档
38 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:55上传分享