说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211326579.1 (22)申请日 2022.10.27 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 刘聪 胡诗卉 何山 周良 胡金水 殷兵 (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 尚文文 (51)Int.Cl. G06T 17/00(2006.01) G06T 13/40(2011.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 20/40(2022.01) G06V 40/16(2022.01) G10L 25/03(2013.01) (54)发明名称 虚拟形象的生成方法、 装置、 电子设备和存 储介质 (57)摘要 本申请提出一种虚拟形象的生成方法、 装 置、 电子设备和存储介质, 能够从目标用户的音 频数据中提取得到音素特征, 以及从与音频数据 同步的视频数据中提取得到面部表情特征。 基于 上述音素特征和面部表情特征, 解算得到目标用 户的面部表情参数序列。 其中, 面部动作较为复 杂的部分集中在下半张脸的口唇区域, 而用户说 话的语音音素与口唇动作有较强的相关性, 因 此, 本申请引入音素特征, 根据音素特征和面部 表情特征解算面部表情参数序列, 利用面部表情 参数序列驱动目标用户对应的三维虚拟形象模 型生成的虚拟形象, 能够精确还原目标用户面部 的动作。 权利要求书2页 说明书13页 附图3页 CN 115439614 A 2022.12.06 CN 115439614 A 1.一种虚拟形象的生成方法, 其特 征在于, 包括: 从目标用户的音频数据中提取得到音素特征, 以及从与 所述音频数据同步的视频数据 中提取得到面部表情特 征; 基于所述音素特征和所述面部表情特征, 解算得到所述目标用户的面部表情参数序 列; 利用所述面部表情参数序列驱动所述目标用户对应的三维虚拟形象模型, 生成所述目 标用户对应的虚拟形象。 2.根据权利要求1所述的方法, 其特征在于, 从 目标用户的音频数据中提取得到音素特 征, 包括: 从所述音频 数据中提取 得到语音数据段和静音数据段; 对所述语音数据段和所述静音数据段进行音素编码, 得到所述语音数据段的音素编码 和所述静音数据段的音素编码; 拼接所述语音数据段的音素编码和所述静音数据段的音素编码, 得到音素 特征。 3.根据权利要求1所述的方法, 其特征在于, 从与 所述音频数据同步的视频数据中提取 得到面部表情特 征, 包括: 将与所述音频数据同步的视频数据输入预先训练 的面部表情特征提取模型, 得到面部 表情特征; 其中, 所述面部表情特征提取模型是以样本视频数据为第一训练样本, 以样本视频数 据对应的面部特 征点和面部表情类别为第一标签训练得到的。 4.根据权利要求1所述的方法, 其特征在于, 基于所述音素特征和所述面部表情特征, 解算得到所述目标用户的面部表情参数序列, 包括: 将所述音素 特征和所述 面部表情特 征进行拼接, 得到拼接特 征; 将所述拼接特征输入预先训练 的面部表情参数解算模型, 得到所述目标用户的面部表 情参数序列; 其中, 所述面部表情参数解算模型是以样本音视频数据中提取的音素特征和面部表情 特征的拼接特征为第二训练样本, 以所述样本音视频数据对应的面部表情参数序列为第二 标签训练得到的。 5.根据权利要求4所述的方法, 其特征在于, 所述样本音视频数据为设定人员讲话的音 视频数据; 其中, 所述设定人员讲话的内容覆盖所有 音素。 6.根据权利要求1所述的方法, 其特征在于, 从与 所述音频数据同步的视频数据中提取 得到面部表情特 征之后, 还 包括: 对所述 面部表情特 征进行特征降维处 理。 7.根据权利要求6所述的方法, 其特征在于, 对所述面部表情特征进行特征降维处理, 包括: 利用主成分 分析方法对所述 面部表情特 征进行降维, 得到面部表情主成分编码; 利用多项式核函数对所述面部表情主成分编码进行非线性映射, 得到处理后的面部表 情特征。 8.一种虚拟形象的生成装置, 其特 征在于, 包括: 提取模块, 用于从目标用户的音频数据中提取得到音素特征, 以及从与所述音频数据 同步的视频 数据中提取 得到面部表情特 征;权 利 要 求 书 1/2 页 2 CN 115439614 A 2结算模块, 用于基于所述音素特征和所述面部表情特征, 解算得到所述目标用户的面 部表情参数序列; 生成模块, 用于利用所述面部表情参数序列驱动所述目标用户对应的三维虚拟形 象模 型, 生成所述目标用户对应的虚拟形象。 9.一种电子设备, 其特 征在于, 包括: 存储器和处 理器; 其中, 所述存 储器用于存 储程序; 所述处理器, 用于通过运行所述存储器中的程序, 实现如权利要求1至7中任意一项所 述的虚拟形象的生成方法。 10.一种存储介质, 其特征在于, 包括: 所述存储介质上存储有计算机程序, 所述计算机 程序被处 理器执行时, 实现如权利要求1至7中任意 一项所述的虚拟形象的生成方法。权 利 要 求 书 2/2 页 3 CN 115439614 A 3
专利 虚拟形象的生成方法、装置、电子设备和存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 06:33:42
上传分享
举报
下载
原文档
(624.0 KB)
分享
友情链接
T-FSAS 58—2022 基于互联网的可信数字身份服务技术要求.pdf
GB-T 43624-2023 湿地术语.pdf
GB-T 8013.1-2018 铝及铝合金阳极氧化膜与有机聚合物膜 第1部分:阳极氧化膜.pdf
GB-T 15045-2013 脂肪烷基二甲基叔胺.pdf
GB-T 42109-2022 供应链资产管理体系实施指南.pdf
GB-T 3785.1-2010 电声学 声级计 第1部分:规范.pdf
GB-T 41774-2022 法庭科学 爆炸装置鉴定规程.pdf
NIST 关键基础设施网络安全改善框架-美国关基-v1.1-2018年 安全内参翻译版本.pdf
GB-T 22394.1-2015 机器状态监测与诊断 数据判读和诊断技术 第1部分:总则.pdf
GB-T 21361-2017 汽车用空调器.pdf
GA 1551.5-2019 石油石化系统治安反恐防范要求 第5部分:运输企业.pdf
OWASP TOP10 2021中文版 .pdf
DB3305-T 197-2021 绿水青山就是金山银山 生态资源数字化建设与应用指南 湖州市.pdf
DB13-T 5217-2020 河道人工湿地设计规范 河北省.pdf
JGJ-T394-2017 152-2017消防站.pdf
T-CNHAW 0010.1—2022 激光角膜屈光手术技术规范 第1部分:准分子激光角膜屈光手术.pdf
YD-T 2703-2014 电信网和互联网安全防护基线配置要求及检测要求-web应用系统.pdf
GB-T 42036-2022 矿井高压电网单相接地电容电流检验规范.pdf
GB-T 39633-2020 协作机器人用一体式伺服电动机系统通用规范.pdf
GB-T 14721-2010 林业资源分类与代码 森林类型.pdf
1
/
3
19
评价文档
赞助2元 点击下载(624.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。