说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210289121.7 (22)申请日 2022.03.23 (71)申请人 成都瑞数猛 兽科技有限公司 地址 610000 四川省成 都市高新区天府大 道中段138 8号1栋1257号 (72)发明人 贾海涛 王云 乔磊崖 余梦鹏 李玉琳 胡佳丽 李彧 李毅 任利 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/284(2020.01) G06F 40/211(2020.01) (54)发明名称 一种基于三层LSTM推敲网络的图像语义理 解算法 (57)摘要 本发明属于图像描述领域, 具体为一种基于 三层LSTM推敲网络的 图像语义理解方法。 图像语 义理解算法通过为图片生成文字描述来挖掘图 片深层的语义信息, 该领域的发展同时依赖于计 算机视觉技术和自然语言处理技术的发展, 当前 主要使用编解码框架来实现图片生成文字描述 的功能, 然而即使当前的图像语义理解算法已经 能够完整的表达出图像中的内容, 但是表达的内 容往往不够细腻, 生成的词汇不能够精准的表达 出图片的内容和属性以及相互关系。 因此本发明 对基于编解码框架的的图像语义理解算法进行 了相应改进, 通过引入一层推敲层网络对原始生 成的描述进行推敲和润色, 提高解码器的表达能 力, 从而使得生成的描述语句的表达更加细腻准 确。 权利要求书2页 说明书4页 附图2页 CN 114782702 A 2022.07.22 CN 114782702 A 1.一种基于三层LSTM推敲网络的图像 语义理解 算法, 其特 征在于, 包括下列步骤: 步骤1: 输入一张图像, 使用卷积神经网络提取 该图像特 征; 步骤2: 将步骤1提取到的图像特 征进行平均池化操作得到全局特 征; 步骤3: 将步骤2中的全局特征和上一时刻生成的单词的词向量以及第三层LSTM上一时 刻的隐藏层的输出拼接之后输入第一层LSTM网络; 步骤4: 将步骤1提取的图像特征和第一层LSTM网络的隐藏层输出一起输入到第一层 LSTM和第二层LSTM网络之间的注意力网络; 步骤5: 将步骤4中的注意力网络的输出和第一层LSTM 网络隐藏层输出一起输入第二层 LSTM网络; 步骤6: 将步骤1中提取的图像特征和第二层LSTM 网络的隐藏层输出以及 “视觉哨兵 ”一 起输入第二层LSTM和第三层LSTM网络之间的自适应注意力网络; 步骤7: 将自适应注意力 网络的输出和第二层LSTM网络的隐藏层输出一起输入第三层 LSTM网络; 步骤8: 将第三层LSTM网络当前时刻的隐藏层输出和自适应注意力网络的输出做残差 连接之后输入到softmax层, 得到单词的概 率分布; 步骤9: 根据步骤8中的单词的概率分布, 取分布值最大的概率对应的单词, 得到当前时 刻的单词; 步骤10: 将每个时刻的输出的单词按序组成描述语句, 直到输出语句的单词长度达到 最大长度或者单词为结束符标志时, 结束输出。 2.根据权利要求1所述的一种基于三层LSTM推敲网络的图像语义理解算法, 其特征在 于, 所述步骤1中提取图像特 征的方法具体为: 步骤101: 使用Faster R‑CNN网络处理图像, 取最后k个感兴趣区域的图像特征为输出 特征。 3.根据权利要求1所述的一种基于三层LSTM推敲网络的图像语义理解算法, 其特征在 于, 所述步骤2中获取全局特 征的方法具体为: 步骤201: 将步骤101中K个感兴趣区域的特 征取平均得到全局特 征。 4.根据权利要求1所述的一种基于三层LSTM推敲网络的图像语义理解算法, 其特征在 于, 所述步骤4中注意力网络处 理的方法具体为: 步骤401: 注意力网络使用双曲正切tanh激活函数处理图像特征和第一层LSTM网络的 隐藏层输出 得到输入图像特 征各个分量的权 重; 步骤402: 注意力网络将权重和对应的图像特征分量相乘再累加作为注意力网络的输 出。 5.根据权利要求1所述的一种基于三层LSTM推敲网络的图像语义理解算法, 其特征在 于, 所述步骤6中自适应注意力网络处 理的方法具体为: 步骤601: 自适应注意力网络使用双曲正切tanh激活函数处理图像特征、 “视觉哨兵 ”和 第二层LSTM网络的隐藏层输出 得到输入图像特 征各个分量和 “视觉哨兵”对应的权 重; 步骤602: 自适应注意力 网络将权重和对应的图像特征分量以及 “视觉哨兵 ”相乘再累 加作为注意力网络的输出。 6.根据权利要求1所述的一种基于三层LSTM推敲网络的图像语义理解算法, 其特征在权 利 要 求 书 1/2 页 2 CN 114782702 A 2于, 所述步骤8中残差连接的方法具体为: 步骤801: 将自适应注意力网络的输出和第三层LSTM网络的输出隐藏层相加作为 softmax层的输入。 7.根据权利要求1所述的一种基于三层LSTM推敲网络的图像语义理解算法, 其特征在 于, 所述步骤9中得到当前时刻单词的方法具体为: 步骤901: 从单词的概率分布中使用argmax函数获取最大值对应的索引, 从词汇表中取 索引对应的单词即为当前时刻的单词。权 利 要 求 书 2/2 页 3 CN 114782702 A 3
专利 一种基于三层LSTM推敲网络的图像语义理解算法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-03-03 12:11:32
上传分享
举报
下载
原文档
(453.0 KB)
分享
友情链接
T-CSAE 82—2018 能量回馈式整车动力学控制系统耐久 性能要求及台架试验方法.pdf
GA-T 1794-2021 公安视频会议室技术规范.pdf
信通院 区块链白皮书 2023年.pdf
GB-T 14914.6-2021 海洋观测规范 第6部分:数据处理与质量控制.pdf
GB-T 22836-2008 纸浆 纤维帚化率的测定.pdf
CSA 零信任商业价值综述.pdf
GB-T 33133.2-2021 信息安全技术 祖冲之序列密码算法 第2部分:保密性算法.pdf
CB-T 4521-2022 船舶行业企业工业管道和气体橡胶软管安全管理规定.pdf
GB-T 32488-2016 球墨铸铁管和管件 水泥砂浆内衬密封涂层.pdf
T-CSTM 00461—2022 晶体硅光伏电池电极剥离强度测试方法.pdf
GW0103-2014 国家电子政务外网 安全等级保护基本要求.pdf
GB-T 31167-2023 信息安全技术 云计算服务安全指南.pdf
GB-T 35392-2017 无损检测 电导率电磁 涡流 测定方法.pdf
GBJ 93-86 工业自动化仪表施工验收.pdf
T-CCGA 40005—2021 加氢站用液驱活塞氢气压缩机安全使用技术规范.pdf
T-CVMA 42—2020 猫疱疹病毒荧光定量PCR检测方法.pdf
GB-T 42209-2022 液晶显示屏用点对点 P2P 信号接口 传输协议.pdf
GB-T 9465-2018 高空作业车.pdf
DB34-T 3819-2021 移动视频图像信息系统建设、使用和管理规范 安徽省.pdf
DB14-T 1822-2019 旅游景区安全评估规范 山西省.pdf
1
/
9
评价文档
赞助2.5元 点击下载(453.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。