专利 一种结合语音和图像的字符记录方法及执行芯片

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211101475.0 (22)申请日 2022.09.09 (71)申请人中诚华隆计算机技术有限公司地址 100085 北京市海淀区上地三街9号F 座8层807- 3 (72)发明人王嘉诚　张少仲　张栩　 (74)专利代理机构北京智燃律师事务所 1 1864 专利代理师柴琳琳 (51)Int.Cl. G10L 15/26(2006.01) G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/25(2013.01) H04N 5/76(2006.01) G06V 40/20(2022.01)G06V 40/16(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) H04N 7/15(2006.01) (54)发明名称一种结合语音和图像的字符记录方法及执行芯片 (57)摘要本发明公开了一种结合语音和图像的字符记录方法及执行芯片，属于计算机技术领域，包括：采集会议现场发言的音频数据和发言者的视频数据，对音频数据进行预处理，得到音频特征参数，对视频数据进行预处理，得到视频特征参数；将音频特征参数输入音频神经网络模型，输出语音识别结果；将视频特征参数输入视频神经网络模型，输出视频识别结果；将语音识别结果和视频识别结果进行相似度比对，若比对结果不低于设定的阈值，则保存语音识别结果，生成会议记录，若比对结果小于设定的阈值，则保存该段音频数据和视频数据，供人工介入识别。通过对语音和视频识别结果进行结合比对，在声音复杂的环境下，自动字符记录也能保证较高的准确性。权利要求书3页说明书7页附图2页 CN 115331676 A 2022.11.11 CN 115331676 A 1.一种结合语音和图像的字符记录方法，其特征在于，包括以下步骤： S1：采集会议现场发言的音频数据和发言者的视频数据，对音频数据附加时间参数并进行预处理，得到第一音频特征参数，对视频数据附加时间参数并进行预处理，得到第一视频特征参数； S2：将所述第一音频特征参数输入训练好的音频神经网络模型，输出语音识别结果；将所述第一视频特征参数输入训练好的视频神经网络模型，输出视频识别结果；所述音频神经网络模型与视频神经网络模型包括依序设置的卷积神经网络和循环神经网络，所述循环神经网络通过双向长短期记忆结构进行唇动序列时序特征的学习； S3：将所述语音识别结果和视频识别结果进行相似度比对，若比对结果不低于设定的阈值，则保存语音识别结果，生成会议记录；若比对结果小于设定的阈值，则保存该段音频数据和视频数据，供人工介入识别。 2.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤 S1中对音频数据进行预处理的流程包括端点检测、预加重、分帧和加窗、快速傅里叶变换及特征向量提取：端点检测，通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾，得到有效语音序列；预加重，增加所述有效语音序列的高频能量，提高信噪比，得到加重语音序列（1）；分帧和加窗，对所述加重语音序列（1）按设定的时间间隔进行分段，然后利用带通滤波器过滤信号，以减小信号的误差，得到依赖于时间的帧序列（2）；快速傅里叶变换，将所述帧序列（2）输入快速傅里叶变换专用的FFT硬件模块中进行计算，把时域图转换为各帧的频谱；特征向量提取，使用感知线性预测技术将关键频带、强度 ‑响度压缩和等响度预强调相结合，提取所述各帧的频谱的特征向量，生成第二音频特征参数（3），特征向量提取的步骤交由特征向量提取硬件模块进行计算。 3.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤 S1中的视频数据预处理步骤具体如下：视频关键帧提取，将输入的视频数据转换为图像序列，生成关键帧；人脸检测，将所述关键帧输入图像检测硬件计算模块，使用AdaBoost算法从所述图像序列检测出人脸区域，然后对检测出的人脸区域进行人脸关键点进行标注；唇部检测，将所述人脸关键点信息输入图像检测硬件计算模块，根据所述人脸关键点裁剪出嘴部区域的图像序列，生成视频特征参数。 4.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤 S2中音频神经网络模型和视频神经网络模型的训练和识别流程具体包括以下步骤： S201：获取用于训练的音频数据样本集和视频数据样本集； S202：对所述音频数据样本集附加时间参数，并进行与所述步骤S1相同的预处理，获得语音数据第一特征参数，对所述视频数据样本集附加时间参数，并进行与所述步骤S1相同的预处理，获得视频数据第一特征参数； S203：将所述语音数据第一特征参数输入音频神经网络进行训练，所述视频数据第一特征参数输入视频神经网络进行训练；权　利　要　求　书 1/3 页 2 CN 115331676 A 2S204：保存训练结果，获得用于音频神经网络模型和视频神经网络模型； S205：将所述步骤S1采集的音频数据输入所述步骤S204中的音频神经网络模型，获得语音识别结果；将所述步骤S1采集的视频数据输入所述步骤S204中的视频神经网络模型，获得视频识别结果。 5.根据权利要求1所述的一种结合语音和图像的字符记录方法，其特征在于，所述步骤 S2中的音频神经网络和视频神经网络均包括依序设置的卷积神经网络和循环神经网络；所述卷积神经网络对输入的音频特征参数和视频特征参数进行卷积，提取音频特征参数和视频特征参数的局部特征，同时减少频域变化，生成语音特征图和视频特征图送入循环神经网络；所述循环神经网络对输入的特征图按照时间参数进行拆分，将拆分后的特征图依序封装成两个矩阵，利用BiLSTM节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播，输出语音识别结果和视频识别结果；所述卷积神经网络和循环神经网络均由专用硬件计算模块实现。 6.根据权利要求5所述的一种结合语音和图像的字符记录方法，其特征在于，用于所述卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层：第一卷积层为256个大小为1×9的过滤器，横向步长设置为2，通道设置为1；池化层为大小为1 ×3的最大池化层，步长设置为1；第二卷积层为512个大小为1 ×4的过滤器，横向步长设置为1，通道设置为128。 7.根据权利要求5所述的一种结合语音和图像的字符记录方法，其特征在于，所述循环神经网络对单向的长短期记忆结构提出改进，使用双向长短期记忆结构进行唇动序列特征的学习。 8.根据权利要求5所述的一种结合语音和图像的字符记录方法，其特征在于，采用 Dropout技术解决所述卷积神经网络和循环神经网络产生的过拟合问题，在每次训练的过程中，将神经网络隐藏层中的神经元以概率p随机丢弃，p默认值为0.4。 9.根据权利要求7所述的一种结合语音和图像的字符记录方法，其特征在于，所述双向长短期记忆结构的节点数量默认值为4096个，其中2048个节点只连接一个矩阵，用于进行正向传播；另外2048个节点连接另外一个矩阵，用于反向传播。 10.根据权利要求2所述的一种结合语音和图像的字符记录方法，其特征在于，所述端点检测方法选择双门限法，其中语音能量的计算公式为：其中，为检测点的语音能量，为第点的语音广义分贝值，为检测点的数量。 11.根据权利要求2所述的一种结合语音和图像的字符记录方法，其特征在于，所述分帧和加窗步骤默认选择为汉明窗，其公式如下：权　利　要　求　书 2/3 页 3 CN 115331676 A 3

专利 一种结合语音和图像的字符记录方法及执行芯片

专利一种结合语音和图像的字符记录方法及执行芯片