说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210345959.3 (22)申请日 2022.03.31 (71)申请人 成都新潮传媒 集团有限公司 地址 610000 四川省成 都市高新区锦晖西 一街99号1栋2单 元15层15 05号 申请人 成都百新智联科技有限公司 (72)发明人 马凯  (74)专利代理 机构 成都顶峰专利事务所(普通 合伙) 51224 专利代理师 杨国瑞 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 20/52(2022.01) G06V 10/82(2022.01)G08B 13/196(2006.01) G06N 3/04(2006.01) (54)发明名称 一种直梯内物品抢劫检测预警方法、 装置及 计算机设备 (57)摘要 本发明涉及电梯监控技术领域, 公开了一种 直梯内物品抢劫检测预警方法、 装置及计算机设 备。 通过本发明创造, 提供了一种基于音视频数 据的直梯内物品抢劫事件确定方案, 即在获取目 标监控时段内由直梯内摄像头采集的视频数据 和由直梯内拾音器采集的音 频数据后, 在行为识 别的基础上, 加入了在物品抢劫事件中抢劫话语 的关键词判定以及声源位置综合判定(以防梯内 广告声干扰)等机制, 可大大提升物品抢劫事件 的结果判定准确性。 此外, 还可使得采集的视频 帧包含完整的人体部分和从摄像角度来看动作 是由连贯的动作视频帧组成的, 以及提高处理速 度, 降低系统制作成本及系统的工况部署难度, 便于实际应用和推广。 权利要求书5页 说明书19页 附图9页 CN 114694254 A 2022.07.01 CN 114694254 A 1.一种直梯内物品抢劫检测预警方法, 其特 征在于, 包括: 获取目标监控时段内由直梯内摄像头采集的视频数据和由直梯内拾音器采集的音频 数据, 其中, 所述目标监控 时段为从t1‑τ时刻至t1+τ时刻的时段, t1表示与目标视频 帧对应 的采集时刻, τ表 示预设的指定时长, 所述目标视频帧是指由所述直梯内摄像头采集的且通 过图像识别处理发现在直梯内有 可抢劫物品和两个人体以及发现直梯门开启的视频帧, 所 述直梯内摄像头固定安装在直梯轿厢内部且朝向直梯门, 并使镜头视野固定涵盖轿厢内部 区域及直梯门区域, 所述 直梯内拾音器固定安装在直梯轿厢内部; 针对所述视频数据中的各个视频帧, 根据对应的帧图像进行人体关节点信息提取处 理, 得到在对应的帧图像中标注的人体骨架, 其中, 所述人体骨架包含有与左右手首、 左右 肘、 左右肩、 左右腰、 左右膝和左右足首对应的人体节点; 针对所述各个视频帧, 若判定在对应的帧图像中至少有一个手首节点至物品检测框的 中心点的距离不大于预设的第一距离阈值, 则确定对应视频帧满足第一预设条件, 其中, 所 述物品检测框是指在对应的帧图像中所识别出来的可抢劫物品的检测框; 根据所述各个视频帧的人体骨架, 若判定有至少一组抢劫动作 呈现节点的动作呈现姿 态属于预先标注的抢劫姿态, 则确定满足第二预设条件, 其中, 所述抢劫动作呈现节点包括 有与左右手首、 左右 肘、 左右肩、 左右腰、 左右膝和左右足首对应的人体节点; 根据所述音频数据, 利用已完成训练 的且基于端到端语音识别技术的关键词检索系统 来进行抢劫话语关键词识别处理, 若识别得到至少一个抢劫话语关键词, 则确定满足第三 预设条件, 其中, 所述抢劫话语关键词的置信度需不小于预设的置信度阈值; 针对所述至少一个抢劫话语关键词中的各个抢劫话语关键词, 若判定对应的发音声源 来自直梯内人体, 则确定对应关键词满足第四预设条件; 若在满足所述第 二预设条件的前提下, 在所述视频数据中满足所述第 一预设条件的视 频帧数不小于预设的帧数阈值, 和/或在 满足所述第三预设条件的前提下, 至少有一个抢劫 话语关键词满足所述第四预设条件, 则确定发生直梯内物品抢劫事件, 并向电梯监控后台 发送异常行为 提醒信号。 2.如权利要求1所述的直梯内物品抢劫检测预警方法, 其特征在于, 针对所述至少一个 抢劫话语关键词中的各个抢劫话语关键词, 若判定对应的发音声源来自直梯内人体, 则确 定对应关键词满足第四预设条件, 包括: 针对所述至少一个抢劫话语关键词中的某个抢劫话语关键词, 根据对应起止时间内的 音频数据, 利用已完成训练的声源方位估计模型来进行对应的声源方位估计处理, 得到对 应的声源相对于所述 直梯内拾音器的方向角及仰角; 根据所述方向角及仰角和所述直梯内摄像头与 所述直梯内拾音器的已知位置关系, 确 定与所述某个抢劫话语关键词对应的声源在同期视频帧的帧图像中的且以图像中心为极 点的第一极角坐标, 其中, 所述同期视频帧是指在与所述某个抢劫话语关键词对应的起止 时间内由所述 直梯内摄 像头采集的视频帧; 针对各个所述同期视频帧, 确定在对应的帧图像中的至少一个人体头 部位置; 针对各个所述同期视频帧, 若判定在对应的所述至少一个人体头部位置 中存在满足如 下条件的人体头部位置: 该人体头部位置在对应的帧图像中的且以图像中心 为极点的第二 极角坐标与所述第一极角坐标的绝对差值不大于预设的角度阈值, 则确定对应视频帧满足权 利 要 求 书 1/5 页 2 CN 114694254 A 2第五预设条件; 若判定满足所述第五预设条件的视频帧数与总视频帧数的比值不小于预设的第一比 例阈值, 则确定与所述某个抢劫话语关键词对应的发音声源来自直梯内人体, 以及确定所 述某个抢劫话语关键词满足第四预设条件, 其中, 所述总视频帧数是指在与所述某个抢劫 话语关键词对应的起止时间内由所述 直梯内摄 像头采集的视频帧总数。 3.如权利要求1所述的直梯内物品抢劫检测预警方法, 其特征在于, 获取目标监控时段 内由直梯内摄 像头采集的视频 数据和由直梯内拾音器采集的音频 数据, 包括: 在获取由直梯内摄像头采集的实时视频帧后, 将所述实时视频帧的帧图像导入已完成 训练的且基于目标检测算法的物品识别模型, 输出得到物品识别结果, 其中, 所述直梯内摄 像头固定安装在直梯轿厢内部且朝向直梯门, 并使镜头视野固定涵盖轿厢内部区域及直梯 门区域; 若所述物品识别结果包含有至少一个可抢劫物品检测框, 则确定在直梯内有可抢劫物 品, 然后将所述实时视频帧的帧图像导入已完成训练的且基于目标检测算法的人体识别模 型, 输出得到人体识别结果; 若所述人体识别结果包含有两个人体检测框, 则确定在直梯内有两个人体, 然后根据 所述实时视频帧的帧图像, 通过图像识别处 理判断直梯门是否处于开启状态; 若判定直梯门处于开启状态, 则将所述实时视频帧确定为目标视频帧; 获取在从t1‑τ时刻至t1+τ时刻的时段内, 由所述直梯内摄像头采集的视频数据和由直 梯内拾音器采集的音频数据, 其中, t1表示与所述目标视频帧对应 的采集时刻, τ表示预设 的指定时长,所述 直梯内拾音器固定安装在直梯轿厢内部 。 4.如权利要求3所述的直梯内物品抢劫检测预警方法, 其特征在于, 根据 所述实时视频 帧的帧图像, 通过图像识别处理判断直梯门是否处于开启状态, 包括如下方式(A)~(B)中 的任意一种: (A)当直梯门为对开门且在对开两门扇的梯内表面上分别预先设置有一个标签时, 先 将所述实时视频帧的帧图像导入已完成训练的且基于目标检测算法的标签识别模型, 输出 得到标签识别结果, 然后根据所述标签识别结果中的两个标签检测框, 计算所述两个标签 检测框的中心距离, 最后若判定所述中心距离不小于预设的第二距离阈值, 则确定所述直 梯门处于开启状态; (B)根据预先在直梯门完全封闭时由所述直梯内摄像头采集的背景帧, 对所述实时视 频帧的帧图像进行在直梯门框区域中的帧差处理, 得到框内帧差图像, 然后对所述框内帧 差图像进行离散点去除处理和腐蚀操作处理, 得到新帧差图像, 再然后对所述新帧差图像 中的帧差绝对值不小于预设的帧差阈值的像素点做凸包处理, 得到凸包区域, 再然后统计 位于所述凸包区域内的所有像素点的像素总量, 最后若判定所述像素总量不小于预设的数 量阈值, 则确定所述 直梯门处于开启状态。 5.如权利要求3所述的直梯内物品抢劫检测预警方法, 其特征在于, 将所述实时视频帧 确定为目标视频帧, 包括如下 方式(C)~(E)中的任意 一种或它 们的任意组合: (C)当直梯门为对开门且在对开两门扇的梯内表面上分别预先设置有一个标签时, 先 将所述实时视频帧的帧图像导入已完成训练的且基于目标检测算法的标签识别模型, 输出 得到标签识别结果, 然后根据所述标签识别结果中的两个标签检测框, 计算所述两个标签权 利 要 求 书 2/5 页 3 CN 114694254 A 3

.PDF文档 专利 一种直梯内物品抢劫检测预警方法、装置及计算机设备

文档预览
中文文档 34 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共34页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种直梯内物品抢劫检测预警方法、装置及计算机设备 第 1 页 专利 一种直梯内物品抢劫检测预警方法、装置及计算机设备 第 2 页 专利 一种直梯内物品抢劫检测预警方法、装置及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:03:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。