(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211101475.0
(22)申请日 2022.09.09
(71)申请人 中诚华隆计算机技 术有限公司
地址 100085 北京市海淀区上地 三街9号F
座8层807- 3
(72)发明人 王嘉诚 张少仲 张栩
(74)专利代理 机构 北京智燃律师事务所 1 1864
专利代理师 柴琳琳
(51)Int.Cl.
G10L 15/26(2006.01)
G10L 15/06(2013.01)
G10L 15/16(2006.01)
G10L 15/25(2013.01)
H04N 5/76(2006.01)
G06V 40/20(2022.01)G06V 40/16(2022.01)
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
H04N 7/15(2006.01)
(54)发明名称
一种结合语音和图像的字符记录方法及执
行芯片
(57)摘要
本发明公开了一种结合语音和图像的字符
记录方法及执行芯片, 属于计算机技术领域, 包
括: 采集会议现场发言的音 频数据和发言者的视
频数据, 对音频数据进行预处理, 得到音频特征
参数, 对视频数据进行预处理, 得到视频特征参
数; 将音频特征参数输入音频神经网络模型, 输
出语音识别结果; 将视频特征参数输入视频神经
网络模型, 输出视频识别结果; 将语音识别结果
和视频识别结果进行相似度比对, 若比对结果不
低于设定的阈值, 则保存语音识别结果, 生成会
议记录, 若比对结果小于设定的阈值, 则保存该
段音频数据和视频数据, 供人工介入识别。 通过
对语音和视频识别结果进行结合比对, 在声音复
杂的环境下, 自动字符记录也能保证较高的准确
性。
权利要求书3页 说明书7页 附图2页
CN 115331676 A
2022.11.11
CN 115331676 A
1.一种结合语音和图像的字符记录方法, 其特 征在于, 包括以下步骤:
S1: 采集会议现场发言的音频数据和发言者的视频数据, 对音频数据附加时间参数并
进行预处理, 得到第一音频特征参数, 对视频数据附加时间参数并进 行预处理, 得到第一视
频特征参数;
S2: 将所述第 一音频特征参数输入训练好的音频神经网络模型, 输出语音识别结果; 将
所述第一视频特征参数输入训练好的视频神经网络模型, 输出视频识别结果; 所述音频神
经网络模型与视频神经网络模型包括依序设置的卷积神经网络和循环神经网络, 所述循环
神经网络通过双向长短期记 忆结构进行 唇动序列时序特 征的学习;
S3: 将所述语音识别结果和视频识别结果进行相似度比对, 若比对结果不低于设定的
阈值, 则保存语音识别结果, 生成会议记录; 若比对结果小于设定的阈值, 则 保存该段音频
数据和视频 数据, 供人工介入识别。
2.根据权利要求1所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述步骤
S1中对音频数据进 行预处理的流程包括端点检测、 预加重、 分帧和加窗、 快速傅里叶变换及
特征向量提取:
端点检测, 通过区分有声段、 无声段和浊音段的信号以区划语句的开头与 结尾, 得到有
效语音序列;
预加重, 增 加所述有效语音序列的高频能量, 提高信噪比, 得到加重语音序列 (1) ;
分帧和加窗, 对所述加重语音序列 (1) 按设定的时间间隔进行分段, 然后利用带通滤波
器过滤信号, 以减小信号的误差, 得到依赖 于时间的帧序列 (2) ;
快速傅里叶变换, 将所述帧序列 (2) 输入快速傅里叶变换专用的FFT硬件模块中进行计
算, 把时域图转换为各帧的频谱;
特征向量提取, 使用感知线性预测技术将关键频带、 强度 ‑响度压缩和等响度预强调相
结合, 提取所述各帧的频谱的特征向量, 生成第二音频特征参数 (3) , 特征向量提取的步骤
交由特征向量提取硬件 模块进行计算。
3.根据权利要求1所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述步骤
S1中的视频 数据预处 理步骤具体如下:
视频关键帧提取, 将输入的视频 数据转换为图像序列, 生成关键帧;
人脸检测, 将所述关键帧输入图像检测硬件计算模块, 使用AdaBoost算法从所述图像
序列检测出 人脸区域, 然后对检测出的人脸区域进行 人脸关键点进行 标注;
唇部检测, 将所述人脸关键点信息输入图像检测硬件计算模块, 根据所述人脸关键点
裁剪出嘴部区域的图像序列, 生成视频 特征参数。
4.根据权利要求1所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述步骤
S2中音频神经网络模型和视频神经网络模型的训练和识别流 程具体包括以下步骤:
S201: 获取用于训练的音频 数据样本集和视频 数据样本集;
S202: 对所述音频数据样本集附加时间参数, 并进行与所述步骤S1相同的预处理, 获得
语音数据第一特征参数, 对所述视频数据样本集附加时间参数, 并进行与所述步骤S1相同
的预处理, 获得视频 数据第一特 征参数;
S203: 将所述语音数据第一特征参数输入音频神经网络进行训练, 所述视频数据第一
特征参数输入视频神经网络进行训练;权 利 要 求 书 1/3 页
2
CN 115331676 A
2S204: 保存训练结果, 获得用于音频神经网络模型和视频神经网络模型;
S205: 将所述步骤S1采集的音频数据输入所述步骤S204中的音频神经网络模型, 获得
语音识别 结果; 将所述步骤S1采集的视频数据输入所述步骤S204中的视频神经网络模型,
获得视频识别结果。
5.根据权利要求1所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述步骤
S2中的音频神经网络和视频神经网络均包括依序设置的卷积神经网络和循环神经网络;
所述卷积神经网络对输入的音频特征参数和视频特征参数进行卷积, 提取音频特征参
数和视频特征参数 的局部特征, 同时减少频域变化, 生成语音特征图和视频特征图送入循
环神经网络;
所述循环神经网络对输入的特征图按照时间参数进行拆分, 将拆分后的特征图依序封
装成两个矩阵, 利用BiLSTM节点对 前一个矩阵分别进 行正向传播以及对后一个矩阵进 行反
向传播, 输出语音识别结果和视频识别结果;
所述卷积神经网络和循环神经网络均由专用硬件计算模块实现。
6.根据权利要求5所述的一种结合语音和图像的字符记录方法, 其特征在于, 用于所述
卷积神经网络包括依序连接的第一卷积层、 池化层和第二卷积层: 第一卷积层为256个大小
为1×9的过滤器, 横向步长设置为2, 通道设置为1; 池化层为大小为1 ×3的最大池化层, 步
长设置为1; 第二卷积层为512个大小为1 ×4的过滤器, 横向步长设置为1, 通道设置为128。
7.根据权利要求5所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述循环
神经网络对单向的长短期记忆结构提出改进, 使用双向长 短期记忆结构进 行唇动序列特征
的学习。
8.根据权利要求5所述的一种结合语音和图像的字符记录方法, 其特征在于, 采用
Dropout技术解决所述卷积神经网络和循环神经网络产生的过拟合 问题, 在每次训练的过
程中, 将神经网络隐藏层中的神经 元以概率p随机丢弃,p默认值为0.4。
9.根据权利要求7所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述双向
长短期记忆结构的节点数量默认值为4096个, 其中2048个节点只连接一个矩阵, 用于进行
正向传播; 另外2048个节点连接另外一个矩阵, 用于反向传播。
10.根据权利要求2所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述端
点检测方法选择双门限法, 其中语音能量的计算公式为:
其中,
为检测点的语音能量,
为第
点的语音广义分贝值,
为检测点的数量。
11.根据权利要求2所述的一种结合语音和图像的字符记录方法, 其特征在于, 所述分
帧和加窗步骤默认选择为汉明窗, 其公式如下:
权 利 要 求 书 2/3 页
3
CN 115331676 A
3
专利 一种结合语音和图像的字符记录方法及执行芯片
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:52上传分享