说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210785055.2 (22)申请日 2022.06.28 (71)申请人 中国科学院半导体 研究所 地址 100083 北京市海淀区清华 东路甲35 号 (72)发明人 鉴海防 王洪昌 郭慧敏 李文昌 (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 任岩 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 25/03(2013.01)G10L 25/30(2013.01) G10L 25/51(2013.01) (54)发明名称 基于图像和音频双模态鸟类识别方法、 装 置、 设备及 介质 (57)摘要 本发明提供了一种基于图像和音频双模态 鸟类识别方法、 装置、 设备及介质。 方法包括: 获 取鸟类的图像及音频; 利用ViT深度学习神经网 络模型对图像及音频进行特征提取, 得到图像特 征及音频特征; 将图像特征及音频特征融合, 输 出鸟类的细粒度识别结果。 本发 明同时利用音 频 和图像特征进行鸟类细粒度 识别, 通过融合两种 特征进行特征互补, 可以提升识别精确度并提高 数据利用率。 权利要求书2页 说明书7页 附图4页 CN 115063601 A 2022.09.16 CN 115063601 A 1.一种基于图像和音频双模态鸟类识别方法, 其特 征在于, 包括: 获取所述鸟类的图像及音频; 利用ViT深度学习神经网络模型对所述图像及音频进行特征提取, 得到图像特征及音 频特征; 将所述图像特 征及音频 特征融合, 输出 所述鸟类的细粒度识别结果。 2.根据权利要求1所述的基于图像和音频双模态鸟类识别方法, 其特征在于, 所述利用 ViT深度学习神经网络模型对所述图像及音频进行特征提取, 得到图像特征及音频特征包 括: 将所述图像调整为 W×H格式并分割成多个单 元图像; 将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示, 其中, 所述嵌入表示 包括各所述单元图像的像素信息、 各所述单元图像相对于所述图像的位置信息及各所述单 元图像的类别 信息; 将所述单 元图像输入到第一ViT深度学习神经网络模型进行 特征提取, 得到图像特 征; 对所述音频进行短时傅里叶变换; 对所述音频进行梅尔频谱滤波以得到频谱图; 将所述频谱图输入到第二ViT深度学习神经网络模型进行 特征提取, 得到音频 特征。 3.根据权利要求1所述的基于图像和音频双模态鸟类识别方法, 其特征在于, 所述将所 述图像特 征及音频 特征融合包括: 将所述图像特 征及音频 特征进行加权融合, 其中, 所述加权融合按如下公式进行计算: sout=α·s0+β·s1 其中sout为融合结果, s0为所述图像特征, α 为图像特征权重系数, s1为所述音频特征, β 为音频特征权重系数, α +β =1且α 、 β ≥0 。 4.根据权利要求3所述的基于图像和音频双模态鸟类识别方法, 其特征在于, 所述输出 所述鸟类的细粒度识别结果包括: 将所述融合结果输入全连接层, 其中, 所述全连接层包括所述融合结果与所述鸟类细 粒度对应的识别类别; 对各所述识别类别进行 赋分计算并排名, 取排名前三的识别类别作为识别结果输出。 5.根据权利要求1所述的基于图像和音频双模态鸟类识别方法, 其特 征在于, 包括: 对所述ViT深度学习神经网络模型进行模型训练, 具体为: 使用随机梯度下降作为优化器训练所述ViT深度学习神经网络模型直至损失函数收 敛, 所述损失函数为: 其中n是样本数, m是类别数, yic是符号函数, 当对样本i的预测结果为类别c为真时等于 1否则等于 0, pic是对观察到的样本i预测其属于类别c的概 率。 6.一种基于图像和音频双模态鸟类识别装置, 其特 征在于, 包括: 采集模块, 用于获取 所述鸟类的图像及音频; 特征提取模块, 用于利用ViT深度学习神经网络模型对所述图像及音频进行特征提取, 得到图像特 征及音频 特征;权 利 要 求 书 1/2 页 2 CN 115063601 A 2识别模块, 用于将所述图像特 征及音频 特征融合, 输出 所述鸟类的细粒度识别结果。 7.根据权利要求6所述的基于图像和音频双模态鸟类识别装置, 其特 征在于, 包括: 图像调整模块, 用于将所述图像调整为W ×H格式并分割成多个单元图像, 将所述单元 图像进行二维卷积得到各 所述单元图像的嵌入表示; 第一ViT深度学习神经网络模型, 用于对所述单 元图像进行 特征提取以得到图像特 征; 音频调整模块, 用于对所述音频进行短时傅里叶变换并对所述音频进行梅尔频谱滤波 以得到频谱图; 第二ViT深度学习神经网络模型, 用于对所述频谱图进行 特征提取以得到音频 特征。 8.根据权利要求6所述的基于图像和音频双模态鸟类识别装置, 其特 征在于, 包括: 输入模块, 用于将所述融合结果输入全连接层, 其中, 所述全连接层包括所述融合结果 与所述鸟类细粒度对应的识别类别; 赋分计算模块, 用于对各所述识别类别进行赋分计算并排名, 取排名前三的识别类别 作为识别结果输出。 9.一种电子设备, 包括: 一个或多个处 理器; 存储器, 用于存 储一个或多个程序, 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个 处理器实现权利要求1~5中任一项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机可读指令, 所述指令被处理器执行时 使得处理器执行权利要求1~5中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115063601 A 3
专利 基于图像和音频双模态鸟类识别方法、装置、设备及介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-24 00:40:52
上传分享
举报
下载
原文档
(575.2 KB)
分享
友情链接
DB4403-T 114-2020 公共信用信息资源目录规范 深圳市.pdf
红蓝对抗-蓝队作战手册.pdf
GB 31338-2014 工业硅单位产品能源消耗限额.pdf
信息安全工程师 每日一记 高频考点口袋书 2022适用 .pdf
GB-T 35499-2017 呋喃树脂耐蚀作业质量技术规范.pdf
GB-T 8566-2022系统与软件工程 软件生存周期过程.pdf
GB-T 28799.2-2020 冷热水用耐热聚乙烯(PE-RT)管道系统 第2部分:管材.pdf
GM-T 0035.1-2014 射频识别系统密码应用技术要求 第1部分:密码安全保护框架及安全级别.pdf
GB-T 10085-2018 圆柱蜗杆传动基本参数.pdf
T-INFOCA 8—2022 移动直播视频用户体验质量 QoE 观众端评测方法.pdf
T-CSBZ 007—2017 石材防水背胶.pdf
GB-T 13093-2023 饲料中细菌总数的测定.pdf
GB-T 29193-2023 国际贸易术语解释通则缩写代码.pdf
GB-T 28827.6-2019 信息技术服务 运行维护 第6部分:应用系统服务要求.pdf
T-CHTS 10038—2021 高速公路服务区地面彩色导向标识设置指南.pdf
商用密码应用安全性评估管理办法(试行).pdf
GB-T 20261-2020 信息安全技术 系统安全工程 能力成熟度模型.pdf
GB-T 30146-2023 安全与韧性业务连续性管理体系要求 ISO 22301-2019.pdf
GB-T 22033-2017 信息技术 嵌入式系统术语.pdf
T-ZZB 1934—2020 超高效节能电机用高绝缘漆包铜圆线.pdf
1
/
14
评价文档
赞助2.5元 点击下载(575.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。