(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210138243.6
(22)申请日 2022.02.15
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 肖鑫雨
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 杜维
(51)Int.Cl.
G06T 11/60(2006.01)
G06T 7/11(2017.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06V 10/764(2022.01)
(54)发明名称
一种图像生成方法、 装置、 存 储介质及设备
(57)摘要
本申请实施例公开了一种图像生 成方法、 装
置、 存储介质及设备, 本申请实施例可应用于云
技术、 人工智能、 智慧交通、 辅助驾驶等场景。 方
法包括: 获取文本集合和目标图像; 目标图像包
括主体对象; 响应于针对文本集合和目标图像的
创作生成操作, 从文本集合中确定与目标图像相
匹配的目标文本; 获取目标图像中的非视觉显著
区域, 根据非视觉显著区域, 在目标图像中确定
用于添加目标文本的创 作文本区域, 将目标文本
添加至目标图像中的创 作文本区域中, 得到创作
图像。 通过本申请, 可以提高创作图像的生成效
率, 且丰富创作图像的显示效果。
权利要求书4页 说明书29页 附图15页
CN 114529635 A
2022.05.24
CN 114529635 A
1.一种图像生成方法, 其特 征在于, 包括:
获取文本集 合和目标图像; 所述目标图像包括主体对象;
响应于针对所述文本集合和所述目标图像的创作生成操作, 从所述文本集合中确定与
所述目标图像相匹配的目标文本;
获取所述目标图像中的非视觉显著区域, 根据所述非视觉显著区域, 在所述目标图像
中确定用于添加所述目标文本的创作文本区域; 所述 非视觉显著区域为所述目标图像中不
包括所述主体对象的关键 部位的区域;
将所述目标文本添加至所述目标图像中的创作文本区域中, 得到创作图像。
2.根据权利要求1所述的方法, 其特征在于, 所述文本集合包括N个文本, 所述N个文本
包括所述目标文本; N为正整 数; 所述从所述文本集合中确定与所述目标图像相匹配的目标
文本, 包括:
调用文本语义识别模型, 分别对所述N个文本进行语义识别, 得到每个文本对应的文本
语义;
调用图像语义识别模型, 对所述目标图像进行语义识别, 得到所述目标图像对应的图
像语义;
确定所述每 个文本对应的文本语义分别与所述图像 语义之间的图文匹配度;
将所述文本集合中, 具有最大图文匹配度的文本, 确定与所述目标图像相匹配的目标
文本。
3.根据权利要求2所述的方法, 其特征在于, 所述调用文本语义识别 模型, 分别对所述N
个文本进行语义识别, 得到每 个文本对应的文本语义, 包括:
调用所述文本语义识别 模型中的嵌入层, 分别对所述N个文本进行嵌入向量转换, 得到
每个文本对应的文本嵌入向量;
调用所述文本语义识别模型中的自注意力特征提取层, 基于所述每个文本的上下文信
息和文本嵌入向量, 对所述每个文本进行自注意力特征提取, 得到所述每个文本对应的自
注意力特 征向量;
调用所述文本语义识别模型中的语义分类层, 对所述每个文本对应的自注意力特征向
量进行语义分类, 得到所述每 个文本对应的文本语义。
4.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括:
获取通用文本样本, 采用所述通用文本样本对初始文本语义识别模型进行迭代训练,
得到第一 候选文本语义识别模型;
获取用于表征对象意图的意图文本样本, 采用所述意图文本样本对所述第 一候选文本
语义识别模型进行迭代训练, 得到第二 候选文本语义识别模型;
获取创作图像样本, 从所述创作图像样本中获取创作文本样本, 采用所述创作文本样
本对所述第二 候选文本语义识别模型进行迭代训练, 得到所述文本语义识别模型。
5.根据权利要求1所述的方法, 其特征在于, 所述获取所述目标图像中的非视觉显著区
域, 包括:
调用显著区域预测模型, 通过所述显著区域预测模型中的区域分割层, 对所述目标图
像进行区域分割, 得到 M个候选区域; M为 正整数;
通过所述显著区域预测模型中的特征提取层, 分别对所述M个候选区域进行特征提取,权 利 要 求 书 1/4 页
2
CN 114529635 A
2得到每个候选区域中的主体对象的对象信息;
通过所述显著区域预测模型中的分类层, 对所述M个候选区域进行分类处理, 得到M个
候选区域分别对应的区域内容类型;
根据所述对象信息和所述区域内容类型, 从所述M个候选区域中确定所述目标图像中
的视觉显著区域; 所述视 觉显著区域 为所述主体对象的关键 部位所在区域;
将所述目标图像中除所述视觉显著区域之外的区域, 确定为所述目标图像中的非视觉
显著区域。
6.根据权利要求5所述的方法, 其特征在于, 所述根据所述对象信 息和所述区域内容类
型, 从所述M个候选区域中确定所述目标图像中的视 觉显著区域, 包括:
通过所述显著区域预测模型中的级联层, 对所述每个候选区域的对象信 息和区域内容
类型进行合并处 理, 得到所述每 个候选区域的合并区域特 征;
根据所述每个候选区域的合并区域特征, 对所述每个候选区域进行影响度预测, 得到
所述每个候选区域的区域影响度;
将所述M个候选区域中, 区域影响度大于或者等于目标阈值的候选区域, 确定为所述目
标图像中的视 觉显著区域。
7.根据权利要求1所述的方法, 其特征在于, 所述根据所述非视觉显著区域, 在所述目
标图像中确定用于添加所述目标文本的创作文本区域, 包括:
获取所述目标文本的文本尺寸信息;
根据所述文本尺寸信 息以及所述非视觉显著区域, 在所述目标图像中确定用于添加所
述目标文本的创作文本区域。
8.根据权利要求7所述的方法, 其特征在于, 所述根据所述文本尺寸信 息以及所述非视
觉显著区域, 在所述目标图像中确定用于添加所述目标文本的创作文本区域, 包括:
对所述目标图像中所述非视觉显著区域进行区域划分, 得到Q个候选创作文本区域; Q
为正整数;
获取每个候选创作文本区域分别对应的区域尺寸信息;
分别获取所述文本尺寸信 息, 与所述每个候选创作文本区域对应的区域尺寸信 息之间
的尺寸匹配度;
根据所述尺寸匹配度, 在所述Q个候选创作文本区域中选择L个尺寸匹配创作文本区
域; L为小于或等于Q的正整数;
在L个尺寸匹配创作文本区域中确定所述目标图像中的创作文本区域。
9.根据权利要求8所述的方法, 其特征在于, 所述在L个尺寸匹配创作文本区域中确定
所述目标图像中的创作文本区域, 包括:
若L为1, 则将所述尺寸匹配创作文本区域确定为所述目标图像中的创作文本区域; 所
述尺寸匹配创作文本区域具有最大尺寸匹配度;
若L大于1, 则获取L个尺寸匹配创作文本区域分别在所述目标图像 中的区域显示位置,
根据所述区域显示 位置确定每 个尺寸匹配创作文本区域对应的区域显著度;
将所述L个尺寸匹配创作文本区域中, 具有最大区域显著度的尺寸匹配创作文本区域
确定为所述目标图像中的创作文本区域。
10.一种图像生成方法, 其特 征在于, 包括:权 利 要 求 书 2/4 页
3
CN 114529635 A
3
专利 一种图像生成方法、装置、存储介质及设备
文档预览
中文文档
49 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共49页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:35上传分享