说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210785055.2 (22)申请日 2022.06.28 (71)申请人 中国科学院半导体 研究所 地址 100083 北京市海淀区清华 东路甲35 号 (72)发明人 鉴海防 王洪昌 郭慧敏 李文昌  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 任岩 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 25/03(2013.01)G10L 25/30(2013.01) G10L 25/51(2013.01) (54)发明名称 基于图像和音频双模态鸟类识别方法、 装 置、 设备及 介质 (57)摘要 本发明提供了一种基于图像和音频双模态 鸟类识别方法、 装置、 设备及介质。 方法包括: 获 取鸟类的图像及音频; 利用ViT深度学习神经网 络模型对图像及音频进行特征提取, 得到图像特 征及音频特征; 将图像特征及音频特征融合, 输 出鸟类的细粒度识别结果。 本发 明同时利用音 频 和图像特征进行鸟类细粒度 识别, 通过融合两种 特征进行特征互补, 可以提升识别精确度并提高 数据利用率。 权利要求书2页 说明书7页 附图4页 CN 115063601 A 2022.09.16 CN 115063601 A 1.一种基于图像和音频双模态鸟类识别方法, 其特 征在于, 包括: 获取所述鸟类的图像及音频; 利用ViT深度学习神经网络模型对所述图像及音频进行特征提取, 得到图像特征及音 频特征; 将所述图像特 征及音频 特征融合, 输出 所述鸟类的细粒度识别结果。 2.根据权利要求1所述的基于图像和音频双模态鸟类识别方法, 其特征在于, 所述利用 ViT深度学习神经网络模型对所述图像及音频进行特征提取, 得到图像特征及音频特征包 括: 将所述图像调整为 W×H格式并分割成多个单 元图像; 将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示, 其中, 所述嵌入表示 包括各所述单元图像的像素信息、 各所述单元图像相对于所述图像的位置信息及各所述单 元图像的类别 信息; 将所述单 元图像输入到第一ViT深度学习神经网络模型进行 特征提取, 得到图像特 征; 对所述音频进行短时傅里叶变换; 对所述音频进行梅尔频谱滤波以得到频谱图; 将所述频谱图输入到第二ViT深度学习神经网络模型进行 特征提取, 得到音频 特征。 3.根据权利要求1所述的基于图像和音频双模态鸟类识别方法, 其特征在于, 所述将所 述图像特 征及音频 特征融合包括: 将所述图像特 征及音频 特征进行加权融合, 其中, 所述加权融合按如下公式进行计算: sout=α·s0+β·s1 其中sout为融合结果, s0为所述图像特征, α 为图像特征权重系数, s1为所述音频特征, β 为音频特征权重系数, α +β =1且α 、 β ≥0 。 4.根据权利要求3所述的基于图像和音频双模态鸟类识别方法, 其特征在于, 所述输出 所述鸟类的细粒度识别结果包括: 将所述融合结果输入全连接层, 其中, 所述全连接层包括所述融合结果与所述鸟类细 粒度对应的识别类别; 对各所述识别类别进行 赋分计算并排名, 取排名前三的识别类别作为识别结果输出。 5.根据权利要求1所述的基于图像和音频双模态鸟类识别方法, 其特 征在于, 包括: 对所述ViT深度学习神经网络模型进行模型训练, 具体为: 使用随机梯度下降作为优化器训练所述ViT深度学习神经网络模型直至损失函数收 敛, 所述损失函数为: 其中n是样本数, m是类别数, yic是符号函数, 当对样本i的预测结果为类别c为真时等于 1否则等于 0, pic是对观察到的样本i预测其属于类别c的概 率。 6.一种基于图像和音频双模态鸟类识别装置, 其特 征在于, 包括: 采集模块, 用于获取 所述鸟类的图像及音频; 特征提取模块, 用于利用ViT深度学习神经网络模型对所述图像及音频进行特征提取, 得到图像特 征及音频 特征;权 利 要 求 书 1/2 页 2 CN 115063601 A 2识别模块, 用于将所述图像特 征及音频 特征融合, 输出 所述鸟类的细粒度识别结果。 7.根据权利要求6所述的基于图像和音频双模态鸟类识别装置, 其特 征在于, 包括: 图像调整模块, 用于将所述图像调整为W ×H格式并分割成多个单元图像, 将所述单元 图像进行二维卷积得到各 所述单元图像的嵌入表示; 第一ViT深度学习神经网络模型, 用于对所述单 元图像进行 特征提取以得到图像特 征; 音频调整模块, 用于对所述音频进行短时傅里叶变换并对所述音频进行梅尔频谱滤波 以得到频谱图; 第二ViT深度学习神经网络模型, 用于对所述频谱图进行 特征提取以得到音频 特征。 8.根据权利要求6所述的基于图像和音频双模态鸟类识别装置, 其特 征在于, 包括: 输入模块, 用于将所述融合结果输入全连接层, 其中, 所述全连接层包括所述融合结果 与所述鸟类细粒度对应的识别类别; 赋分计算模块, 用于对各所述识别类别进行赋分计算并排名, 取排名前三的识别类别 作为识别结果输出。 9.一种电子设备, 包括: 一个或多个处 理器; 存储器, 用于存 储一个或多个程序, 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个 处理器实现权利要求1~5中任一项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机可读指令, 所述指令被处理器执行时 使得处理器执行权利要求1~5中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115063601 A 3

PDF文档 专利 基于图像和音频双模态鸟类识别方法、装置、设备及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于图像和音频双模态鸟类识别方法、装置、设备及介质 第 1 页 专利 基于图像和音频双模态鸟类识别方法、装置、设备及介质 第 2 页 专利 基于图像和音频双模态鸟类识别方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:40:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。