(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111318176.8
(22)申请日 2021.11.09
(65)同一申请的已公布的文献号
申请公布号 CN 114015825 A
(43)申请公布日 2022.02.08
(73)专利权人 上海交通大 学
地址 200240 上海市闵行区东川路80 0号
(72)发明人 许鸿伟 秦威 孙衍宁
(74)专利代理 机构 上海交达专利事务所 31201
专利代理师 王毓理 王锡麟
(51)Int.Cl.
G06N 20/00(2019.01)
(56)对比文件
CN 112418270 A,2021.02.26CN 112925822 A,2021.0 6.08
US 2020201313 A1,2020.0 6.25
US 20210 64983 A1,2021.0 3.04
CN 112001527 A,2020.1 1.27
CN 111815604 A,2020.10.23
JP H01319612 A,1989.12.25
CN 112966871 A,2021.0 6.15
裴晓敏等.多通道时空融合网络双人交 互行
为识别. 《红外与激光工程》 .2020,(第0 5期),
审查员 王良猷
(54)发明名称
基于注意力机制的高炉热负荷异常状态监
测方法
(57)摘要
一种基于注意力机制的高炉热负荷异常状
态监测方法, 首先进行数据采集与数据预处理,
然后构建包括双层一维卷积神经网络结构与单
层双向长短记忆网络下结构的基于注意力机制
的预测模型, 再基于联合训练机制的方式进行预
测模型的训练, 最后通过添加注意力机制的
1DCNN提取输入参数显著异常波动的特征, 再由
BiLSTM在时间维度上的记忆功能, 实现在线监
测, 本发明考虑所采集历史数据的质量问题设计
两阶段数据预处理方法, 能够显著提升热负荷急
剧变化时趋势 状态的预测准确性, 把握高炉设备
的运行状况, 保证高炉炼铁生产过程的持续与稳
定。
权利要求书3页 说明书6页 附图6页
CN 114015825 B
2022.12.06
CN 114015825 B
1.一种基于注意力机制的高炉热负荷异常状态监测方法, 其特征在于, 首先进行数据
采集与数据预 处理, 然后 构建包括双层一维卷积神经网络结构与单层双向长短记忆网络结
构的基于注意力机制的预测模型, 再基于联合训练机制的方式进行预测模型 的训练, 最后
通过添加注意力机制的1DCNN提取输入参数显著异常波动的特征, 再由BiLSTM在时间维度
上的记忆功能, 实现在线监测;
所述的数据采集是指: 通过传感器采集的高炉炼铁过程的历史数据集, 建立高炉热负
荷的预测模型;
所述的数据预处理是指: 经过数据清洗和基于互信 息的特征选择的两阶段数据 预处理
和数据集划分, 得到便于后续预测建模与统计分析的标准化关键输入参数, 具体为: 在第一
阶段中依次采用缺失值填充、 箱型图异常点剔除以及最大最小归一化方法实现原始数据的
标准化, 在第二阶段中采用连续 随机变量互信息求取方法, 分别计算每个输入变量与热负
荷之间的互信息值, 并设置参数过滤阈值, 当所计算的互信息值大于所设置的参数过滤阈
值, 则进一步将参数依据从大到小的顺序排列; 否则认为该参数与热负荷之间的非线性关
联关系不足, 进 而默认该参数与热负荷无关, 并将该部分参数进行剔除;
所述的数据清洗过程中对实际采集的数据进行缺失值、 异常值以及量纲不一致问题 处
理, 采用上一时刻数据填充法对缺失的数据进行填充; 对所采集的参数中存在的异常点利
用箱型图法进行筛选剔除, 并采用上一时刻值对所剔除的点进行填充; 对所采集的参数值
利用最大 ‑最小值归一 化方法进行 标准化处理;
所述的互信 息是描述两个随机变量之间相互依存关系强弱的信 息度量方法, 对于 高炉
炼铁过程的相关参数与高炉热负荷变量; 所述的连续 随机变量互信息求取方法, 分别对各
项参数与热负荷值进行关联分析, 具体为:
其中:
p(xi,y)为当前参数Xi与热负荷值Y的联合概率密度函数, 而p(xi)和p(y)分别为当前参数Xi
和热负荷值Y的边缘概率密度函数, 通过 互信息得到每个参数与热负荷值之 间的互信息值,
之后依据互信息值进行倒序排列, 挑选出与目标值关联性较强的特 征参数;
所述的基于互信息的特征选择, 通过算法实现无关参数的自动过滤与特征维度缩减:
所采集的高炉炼铁数据中包含温度、 料速、 煤比、 焦比诸多量化参数, 参数之间存在线性相
关关系, 表现出一定的参数冗余, 无法准确判断其中对高炉热负荷具有直接关联影响的参
数; 当将所有参数同时作为输入变量, 则有 可能因为参数之间的冗余, 增加预测模型对输入
参数的敏感性, 降低模型的鲁棒性; 因此, 通过设计特征选择方法从诸多变量中挑选出与目
标值直接关联 的低冗余特征, 并以此作为输入, 实现基于关键影响因素作为输入的预测建
模;
所述的双层一维卷积神经网络结构, 具体包括: 输入层、 卷积层、 池化层、 全连接层和输
出层, 其中: CNN通过逐层的卷积和池化操作提取数据特征, 经过多个滤波器操作之后, 最 终
将这些高维数据特征转化为低维数据特征, 并输入全连接层进行进一步的回归或分类分
析;
在一维卷积层中, 输入的数据信 息在流向下一层之前需要经过卷积操作和激活函数的
计算, 具体为: ht=σcnn(Wcnn*xt+bcnn), 其中: Wcnn为滤波器的权重系数, 即卷积核; xt为第t个
输入样本数据信息; *为xt与Wcnn之间的离散卷积运算; bcnn为偏置参数, 该参数主要通过对权 利 要 求 书 1/3 页
2
CN 114015825 B
2模型进行训练时学习获得; σcnn(·)为激活函数; ht为卷积操作结束后的输出 数据;
所述的一维卷积神经网络中, 卷积操作在层与层之间建立映射关系, 为进一步减小计
算量, 引入池化层对卷积后的特征量进行降维, 同时降低网络过拟合的风险, 具体为: ht=
down(ht‑1), 其中: ht‑1和ht分别为池化前后的特征量, down()为池化函数, 常用池化方法有
最大值池化, 平均值池化;
所述的添加注意力 机制是指: 为所有输入特征逐个加权, 关注特定空间和通道, 实现时
间序列的显著细粒度特 征的提取;
所述的单层双向长短记忆网络结构包括: 输入层、 带有BiLSTM单元的隐藏层和输出层,
其中: BiLSTM单元包括三个门控 结构, 即输入门、 遗忘门和输出门, Ct‑1为上一时刻的细胞状
态, ht‑1为上一时刻隐藏层的输出, xt为当前LSTM单元的输入, Ct为更新后的细胞状态, ht为
当前隐藏层的输出; 细胞状态是LSTM单元的核心, 细胞状态沿时间序列传递相关信息, 并通
过三个门更新状态; 遗忘门对上一个节点的输入进行选择性忘记, 具体为: ft=σ(Wf·[ht‑1,
xt]+bf), 其中: ht‑1为上一时刻的隐层信息, xt为当前输入, σ 为sigmoid函 数, Wf和bf为训练参
数; 输入门对本阶段的输入有选择性的记忆, 与遗忘门的结果决定细胞状态更新, 具体为:
其中: Ct‑1为上一时刻细胞状态,
为新的候选值向量, Ct为当
前细胞状态, Wi、 bi、 Wc和bc为训练参数, *为向量内积; 输出门决定当前状态的输出, 具体为:
其中: ot为输出门的运算结果, W0为权重, b0为偏置, tanh( ·)为
激活函数, *为向量内积;
所述的单层双向长短记忆网络结构基于整个时间序列对输出进行预测, 包含正反两个
方向的LSTM网络第1层LSTM计算当前时间点序列信息, 第2层LSTM反向读取相同序列, 并添
加逆序信息; 每一个训练序列向前和向后 分别是两个LSTM网络, 而且这两个网络都连接着
一个输出层, 这个结构为输出层的输入序列中的每个点提供完整的过去和未来上下文信
息; 在进行训练时, 通过对输出神经 元的正向和反向传播 来更新网络的权值;
所述的模型训练, 进一步通过统计分析指标衡量所提模型预测准确性与模型鲁棒性的
评价值指标; 该分析指标包括: 平均绝对误差(MAE), 均方根误差(RMSE), 平均绝对 百分比误
差(MAPE), 最大误差值(Max Error), 具体为:
其中: n为
所统计的样本量,
为第i时刻的热负荷预测值, yi为第i时刻的热负荷真实值。
2.一种实现权利要求1所述基于注意力机制的高炉热负荷异常状态监测方法的系统,
其特征在于, 包括: 数据 清洗单元、 特征选择单元、 模型融合预测单元以及统计分析单元, 其
中: 数据清洗单元根据采集的原始状态监测数据, 进行异常点识别、 缺失值填充、 归一化处
理, 得到符合后续模型训练与测试 的标准数据结果, 特征选择单元根据前一步标准化后的
数据结果, 利用互信息进 行关键参数辨识处理, 得到低维度的关键参数, 模型融合预测单元
根据融合注意力机制的1DCNN模型和BiLSTM模型, 利用间隔时序特征采样进行数据采集处
理, 在融合训练机制下得到热负荷预测结果, 统计分析单元根据测试集的数据信息, 进行模权 利 要 求 书 2/3 页
3
CN 114015825 B
3
专利 基于注意力机制的高炉热负荷异常状态监测方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:02:09上传分享