(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111573232.2
(22)申请日 2021.12.21
(66)本国优先权数据
202011639885.1 2020.12.31 CN
(71)申请人 华为技术有限公司
地址 518129 广东省深圳市龙岗区坂田华
为总部办公楼
申请人 清华大学
(72)发明人 万荣飞 朱安南 张甲 段海新
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 石朝清
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 41/0631(2022.01)H04L 67/02(2022.01)
(54)发明名称
一种恶意 流量识别方法及相关装置
(57)摘要
本申请实施例提供了一种恶意流量识别方
法及相关装置, 其中, 一种恶 意流量识别方法, 可
包括: 确定第一告警流量的接收时间; 基于预设
策略获取目标时间段内与所述第一告警流量对
应的多条第二告警流量; 所述目标时间段为基于
所述接收时间确定的时间段; 所述多条第二告警
流量中每条第二告警流量与所述第一告警流量
的相似度均大于预设阈值; 对所述多条第二告警
流量进行特征提取, 获得第一特征信息; 基于所
述第一特征信息, 判断所述第一告警流量是否为
恶意流量。 实施本申请实施例, 可 以通过多流回
溯的方法提升现网中恶意 流量识别的准确率。
权利要求书4页 说明书21页 附图9页
CN 114697068 A
2022.07.01
CN 114697068 A
1.一种恶意 流量识别方法, 其特 征在于, 包括:
确定第一告警流 量的接收时间;
基于预设策略获取目标时间段内与 所述第一告警流量对应的多条第 二告警流量; 所述
目标时间段为基于所述接收时间确定的时间段; 所述多条第二告警流量中每条第二告警流
量与所述第一告警流 量的相似度均大于预设阈值;
对所述多条第二告警流 量进行特征提取, 获得第一特 征信息;
基于所述第一特 征信息, 判断所述第一告警流 量是否为恶意 流量。
2.根据权利要求1所述方法, 其特征在于, 所述预设策略包括: 第一策略、 第二策略、 第
三策略中的一个或多个, 其中, 所述第一策略为基于所述第一告警流量的网际协议IP地址
和用户代理UA信息获取所述多 条第二告警流量的策略; 所述第二策略为基于所述第一告警
流量的IP地址和预设泛化规则获取所述多 条第二告警流量的策略; 所述第三策略为基于所
述第一告警流量的IP地址和所述第一告警流量的超文本传输协 议HTTP Header信息获取所
述多条第二告警流 量的策略。
3.根据权利要求2所述方法, 其特征在于, 所述预设策略为所述第一策略; 所述基于预
设策略获取目标时间段内与所述第一告警流 量对应的多条第二告警流 量, 包括:
获取所述第一告警流 量的IP地址和UA信息;
采集在所述目标 时间段内所述IP地址发送的多条HTTP流 中, 与所述第一告警流量的UA
信息相同的HT TP流为所述第二告警流 量。
4.根据权利要求2所述方法, 其特征在于, 所述预设策略为所述第二策略, 所述基于预
设策略获取目标时间段内与所述第一告警流 量对应的多条第二告警流 量, 包括:
获取所述第一告警流 量的所述 IP地址;
采集在所述目标时间段内所述 IP地址发送的多条第一HT TP流;
对多条第一HTTP流按照所述预设泛化规则进行泛化处理, 获得多条第二HTTP流, 所述
预设泛化规则为对 所述多条第一HTTP流中每一条第一HTTP流对应的目标字 符串, 使用预设
标准进行统一 替换;
从所述多条第二HTTP流中, 筛选出与所述第一告警流量之间相似度 大于所述预设阈值
的目标第二HT TP流为所述第二告警流 量。
5.根据权利要求2所述方法, 其特征在于, 所述预设策略为所述第三策略, 所述基于预
设策略获取目标时间段内与所述第一告警流 量对应的多条第二告警流 量, 包括:
获取所述第一告警流 量的所述 IP地址和所述HT TP Header信息;
采集在所述目标时间段内所述 IP地址发送的多条第三HT TP流;
分别对所述多条第三HTTP流中每一条第三HTTP流对应的HTTP Header进行N ‑gram处
理, 获得第一矩阵, 所述第一矩阵包括所述每一条第三HTTP流对应的HTTP Header序列信
息;
对所述第一矩阵进行降维处理, 提取降维处理后的第 一矩阵中与所述第 一告警流量的
HTTP Header信息匹配的目标HT TP Header序列信息;
基于所述目标HTTP Header序列信息, 获取所述目标HTTP Header序列信息对应的第三
HTTP流为所述第二告警流 量。
6.根据权利要求1 ‑5所述任意一项方法, 其特征在于, 所述第一特征信息为特征表示向权 利 要 求 书 1/4 页
2
CN 114697068 A
2量; 所述对所述多条第二告警流 量进行特征提取, 获得第一特 征信息, 包括:
对所述多条第 二告警流量进行特征提取, 获得所述多条第 二告警流量对应的行为特征
信息, 所述行为特征信息包括: 连接行为特征, 请求差异特征, 请求响应特征中的一个或多
个;
根据所述行为特 征信息, 获取 所述特征表示向量。
7.根据权利要求1 ‑6所述任意一项方法, 其特征在于, 所述根据所述第一特征信息, 判
断所述第一告警流 量是否为恶意 流量, 包括:
基于所述第一特 征信息通过回溯模型进行检测, 获得第一检测结果;
基于所述多条第 二告警流量通过基线模型进行检测, 获得第 二检测结果, 其中, 所述基
线模型是基于历史流 量预先训练好的检测模型;
基于所述第一检测结果和所述第二检测结果, 判断所述第一告警流量是否为恶意流
量。
8.根据权利要求1 ‑7所述任意 一项方法, 其特 征在于, 所述方法还 包括:
若所述第一告警流量为恶意流量, 对所述第一告警流量进行预设泛化处理, 获得泛化
后的第一告警流 量;
将所述泛化后的第一告警流量进行分类, 确定所述第一告警流量匹配的恶意流量类
型。
9.根据权利要求1所述方法, 其特征在于, 所述确定第一告警流量的接收时间之前, 还
包括:
接收多条第四HT TP流;
对所述多条第四HTTP流中每一条第四HTTP流进行特征提取, 获得第二特征集合, 所述
第二特征集合包括所述多条第四HT TP流分别对应的第二特 征信息;
基于所述第二特征集合, 通过第一分类模型, 从所述多条第四HTTP流中筛选出所述第
一告警流 量。
10.根据权利要求9所述方法, 其特征在于, 所述第 二特征信 息包括手工特征信 息和/或
表示学习特征信息; 其中, 所述手工特征信息包括: 第四HTTP流对应的域名可读性特征、 统
一资源定位符URL结构特征、 行为指示特征、 HTTP Header特征中的一个或多个; 所述表 示学
习特征信息包括第四HT TP流对应的高维特 征。
11.一种恶意 流量识别装置, 其特 征在于, 包括:
确定单元, 用于确定第一告警流 量的接收时间;
回溯单元, 用于基于预设策略获取目标时间段内与所述第 一告警流量对应的多条第 二
告警流量; 所述目标时间段为基于所述接 收时间确定的时间段; 所述多条第二告警流量中
每条第二告警流 量与所述第一告警流 量的相似度均大于预设阈值;
提取单元, 用于对所述多条第二告警流 量进行特征提取, 获得第一特 征信息;
判断单元, 用于基于所述第一特 征信息, 判断所述第一告警流 量是否为恶意 流量。
12.根据权利要求11所述装置, 其特征在于, 所述预设策略包括: 第一策略、 第二策略、
第三策略中的一个或多个, 其中, 所述第一策略为基于所述第一告警流量的网际协议IP地
址和用户代理UA信息获取所述多 条第二告警流量的策略; 所述第二策略为基于所述第一告
警流量的IP地址和预设泛化规则获取所述多条第二告警流量的策略; 所述第三策略为基于权 利 要 求 书 2/4 页
3
CN 114697068 A
3
专利 一种恶意流量识别方法及相关装置
文档预览
中文文档
35 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:33:44上传分享