(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211095434.5
(22)申请日 2022.09.08
(71)申请人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 王蕾 于绪虎 陈昶昊 铁俊波
郭莎莎 肖勋 陈小帆 邱煜晨
张剑锋 石伟
(74)专利代理 机构 湖南兆弘专利事务所(普通
合伙) 43008
专利代理师 谭武艺
(51)Int.Cl.
G06V 40/20(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 40/14(2022.01)
(54)发明名称
基于注意力机制的脉冲神经网络多模态唇
读方法及系统
(57)摘要
本发明公开了一种基于注意力机制的脉冲
神经网络多模态唇读方法及系统, 本发明基于注
意力机制的脉冲神经网络多模态唇读方法包括
获取多种模态下的唇读事件数据; 使用液体状态
机分别提取不同模态下事件数据的语义特征向
量; 将所有的语义特征向量采用基于注意力机制
的软融合以得到融合特征向量; 将融合特征向量
送入预先训练好的分类器获得分类识别结果。 本
发明通过使用液体状态机构建了单模态特征编
码器, 并提出了一种软融合方法对视觉图像特征
和音频特征进行重新加权, 以实现多模态的高效
融合, 能够实现多模态唇读数据的高效、 准确的
分类识别, 且在嘈杂条件下 具有良好的鲁棒 性。
权利要求书2页 说明书9页 附图3页
CN 115482582 A
2022.12.16
CN 115482582 A
1.一种基于注意力机制的脉冲神经网络多模态唇读方法, 其特 征在于, 包括:
S1, 获取多种模态下的唇读事 件数据;
S2, 使用液体 状态机分别提取不同模态下事 件数据的语义特 征向量;
S3, 将所有的语义特 征向量采用基于注意力机制的软融合以得到融合特 征向量;
S4, 将融合特 征向量送入预 先训练好的分类 器获得分类识别结果。
2.根据权利要求1所述的基于注意力机制的脉冲神经网络多模态唇读方法, 其特征在
于, 步骤S1中多种模态下的唇读事 件数据包括视 觉和音频两种模态下的唇读事 件数据。
3.根据权利要求2所述的基于注意力机制的脉冲神经网络多模态唇读方法, 其特征在
于, 步骤S2中使用液体状态机分别提取不同模态下事件数据的语义特征包括: 使用液体状
态机将各个模态的特征编码器将对应模态的事件数据编码为到液体状态机的液体层中显
示为液体状态; 使用时间窗口分割采样技术来读出液体状态作为对应模态下事件数据的语
义特征向量。
4.根据权利要求3所述的基于注意力机制的脉冲神经网络多模态唇读方法, 其特征在
于, 步骤S2中使用的液体状态机在液体层的神经元包含兴奋性神经元和抑制性神经元共两
种类型的神经元, 兴奋性神经元和抑制性神经元均采用泄漏的整合和激发神经元LIF, 且泄
漏的整合和激发神经 元LIF的动力学 方程为:
,
上式中,τm表示时间常数, V表示泄漏的整 合和激发神经元LIF的膜电位, Iext表示输入电
流,R表示膜电阻, t表示时间。
5.根据权利要求4所述的基于注意力机制的脉冲神经网络多模态唇读方法, 其特征在
于, 步骤S2中使用液体状态机分别提取不同模态的事件数据的语义特征时, 视觉数据模态
下采用的特征编码 器包含1000个神经元, 且形成了一个具有10 ×10×10立方结构的神经元
模型, 且视 觉数据模态下采用的特 征编码器的函数表达式为:
Vlip=fvision(xv),
上式中,Vlip表示视觉数据模态下事件数据的语义特征向量, fvision表示视觉数据模态
下采用的特 征编码器, xv为视觉数据模态下的事 件数据。
6.根据权利要求5所述的基于注意力机制的脉冲神经网络多模态唇读方法, 其特征在
于, 步骤S2中使用液体状态机分别提取不同模态的事件数据的语义特征时, 音频数据模态
下采用的特征编码 器采用512 个尖峰神经元形成了一个具有8 ×8×8立方结构的神经元模
型, 且音频 数据模态下采用的特 征编码器的函数表达式为:
Alip=faudio(xa),
上式中,Alip表示音频数据 模态下事件数据的语义特征向量, faudio表示音频数据 模态下
采用的特征编码器, xa为视觉数据模态下的事件数据, 且视觉数据模态下的事件数据 xa为基
于音频数据提取的梅尔频率倒谱系数 特征。
7.根据权利要求2所述的基于注意力机制的脉冲神经网络多模态唇读方法, 其特征在
于, 步骤S3中采用基于注意力机制的软融合以得到融合特 征向量的函数表达式为:
gsoft(Vlip;Alip)=SV,A⊗[Vlip;Alip],权 利 要 求 书 1/2 页
2
CN 115482582 A
2上式中,gsoft(Vlip;Alip)表示融合特征向量, Vlip表示视觉数据模态下事件数据的语义特
征向量,Alip表示音频数据模态下事件数据的语义特征向量, SV,A为用于表示来对单通道提
取的高级特征进行适当选择来生成融合特征向量的掩码表示, ⊗表示相乘, [ Vlip;Alip]表示
将Vlip和Alip拼接, 其中掩码表示 SV,A的计算函数表达式为:
SV,A=SigmoidV,A([Vlip;Alip]),
上式中,SigmoidV,A表示sigmo id函数。
8.根据权利要求2所述的基于注意力机制的脉冲神经网络多模态唇读方法, 其特征在
于, 步骤S4中预先训练好的分类器包括依次相连的三层全连接层和一个softmax激活函数
层, 分类器的函数表达式为:
P(yi|ri)=softmax(fc(ri)),
上式中,P(yi|ri)表示针对第 i个融合特征向量 ri分类识别为结果 yi的概率,yi表示分类
识别得到的结果, ri表示输入分类器的第 i个融合特征向量, softmax 表示softmax 激活函
数,fc(ri)表示第i个融合特 征向量ri经三层全连接层处 理的结果。
9.一种基于注意力 机制的脉冲神经网络多模态唇读系统, 包括相互连接的微处理器和
存储器, 其特征在于, 所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基
于注意力机制的脉冲神经网络多模态唇读方法的步骤。
10.一种计算机可读存储介质, 其中存储有计算机程序, 其特征在于, 所述计算机程序
用于被微处理器编程或配置以执行权利要求1~8 中任意一项所述基于注意力机制的脉冲
神经网络多模态唇读方法的步骤。权 利 要 求 书 2/2 页
3
CN 115482582 A
3
专利 基于注意力机制的脉冲神经网络多模态唇读方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:55上传分享