专利 基于图像和音频双模态鸟类识别方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210785055.2 (22)申请日 2022.06.28 (71)申请人中国科学院半导体研究所地址 100083 北京市海淀区清华东路甲35 号 (72)发明人鉴海防　王洪昌　郭慧敏　李文昌　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师任岩 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 25/03(2013.01)G10L 25/30(2013.01) G10L 25/51(2013.01) (54)发明名称基于图像和音频双模态鸟类识别方法、装置、设备及介质 (57)摘要本发明提供了一种基于图像和音频双模态鸟类识别方法、装置、设备及介质。方法包括：获取鸟类的图像及音频；利用ViT深度学习神经网络模型对图像及音频进行特征提取，得到图像特征及音频特征；将图像特征及音频特征融合，输出鸟类的细粒度识别结果。本发明同时利用音频和图像特征进行鸟类细粒度识别，通过融合两种特征进行特征互补，可以提升识别精确度并提高数据利用率。权利要求书2页说明书7页附图4页 CN 115063601 A 2022.09.16 CN 115063601 A 1.一种基于图像和音频双模态鸟类识别方法，其特征在于，包括：获取所述鸟类的图像及音频；利用ViT深度学习神经网络模型对所述图像及音频进行特征提取，得到图像特征及音频特征；将所述图像特征及音频特征融合，输出所述鸟类的细粒度识别结果。 2.根据权利要求1所述的基于图像和音频双模态鸟类识别方法，其特征在于，所述利用 ViT深度学习神经网络模型对所述图像及音频进行特征提取，得到图像特征及音频特征包括：将所述图像调整为 W×H格式并分割成多个单元图像；将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示，其中，所述嵌入表示包括各所述单元图像的像素信息、各所述单元图像相对于所述图像的位置信息及各所述单元图像的类别信息；将所述单元图像输入到第一ViT深度学习神经网络模型进行特征提取，得到图像特征；对所述音频进行短时傅里叶变换；对所述音频进行梅尔频谱滤波以得到频谱图；将所述频谱图输入到第二ViT深度学习神经网络模型进行特征提取，得到音频特征。 3.根据权利要求1所述的基于图像和音频双模态鸟类识别方法，其特征在于，所述将所述图像特征及音频特征融合包括：将所述图像特征及音频特征进行加权融合，其中，所述加权融合按如下公式进行计算： sout＝α·s0+β·s1 其中sout为融合结果， s0为所述图像特征， α 为图像特征权重系数， s1为所述音频特征， β 为音频特征权重系数， α +β ＝1且α 、 β ≥0 。 4.根据权利要求3所述的基于图像和音频双模态鸟类识别方法，其特征在于，所述输出所述鸟类的细粒度识别结果包括：将所述融合结果输入全连接层，其中，所述全连接层包括所述融合结果与所述鸟类细粒度对应的识别类别；对各所述识别类别进行赋分计算并排名，取排名前三的识别类别作为识别结果输出。 5.根据权利要求1所述的基于图像和音频双模态鸟类识别方法，其特征在于，包括：对所述ViT深度学习神经网络模型进行模型训练，具体为：使用随机梯度下降作为优化器训练所述ViT深度学习神经网络模型直至损失函数收敛，所述损失函数为：其中n是样本数， m是类别数， yic是符号函数，当对样本i的预测结果为类别c为真时等于 1否则等于 0， pic是对观察到的样本i预测其属于类别c的概率。 6.一种基于图像和音频双模态鸟类识别装置，其特征在于，包括：采集模块，用于获取所述鸟类的图像及音频；特征提取模块，用于利用ViT深度学习神经网络模型对所述图像及音频进行特征提取，得到图像特征及音频特征；权　利　要　求　书 1/2 页 2 CN 115063601 A 2识别模块，用于将所述图像特征及音频特征融合，输出所述鸟类的细粒度识别结果。 7.根据权利要求6所述的基于图像和音频双模态鸟类识别装置，其特征在于，包括：图像调整模块，用于将所述图像调整为W ×H格式并分割成多个单元图像，将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示；第一ViT深度学习神经网络模型，用于对所述单元图像进行特征提取以得到图像特征；音频调整模块，用于对所述音频进行短时傅里叶变换并对所述音频进行梅尔频谱滤波以得到频谱图；第二ViT深度学习神经网络模型，用于对所述频谱图进行特征提取以得到音频特征。 8.根据权利要求6所述的基于图像和音频双模态鸟类识别装置，其特征在于，包括：输入模块，用于将所述融合结果输入全连接层，其中，所述全连接层包括所述融合结果与所述鸟类细粒度对应的识别类别；赋分计算模块，用于对各所述识别类别进行赋分计算并排名，取排名前三的识别类别作为识别结果输出。 9.一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1～5中任一项所述的方法。 10.一种计算机可读存储介质，其上存储有计算机可读指令，所述指令被处理器执行时使得处理器执行权利要求1～5中任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115063601 A 3

专利 基于图像和音频双模态鸟类识别方法、装置、设备及介质

专利基于图像和音频双模态鸟类识别方法、装置、设备及介质