专利 一种恶意流量识别方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111573232.2 (22)申请日 2021.12.21 (66)本国优先权数据 202011639885.1 2020.12.31 CN (71)申请人华为技术有限公司地址 518129 广东省深圳市龙岗区坂田华为总部办公楼申请人清华大学 (72)发明人万荣飞　朱安南　张甲　段海新　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师石朝清 (51)Int.Cl. H04L 9/40(2022.01) H04L 41/0631(2022.01)H04L 67/02(2022.01) (54)发明名称一种恶意流量识别方法及相关装置 (57)摘要本申请实施例提供了一种恶意流量识别方法及相关装置，其中，一种恶意流量识别方法，可包括：确定第一告警流量的接收时间；基于预设策略获取目标时间段内与所述第一告警流量对应的多条第二告警流量；所述目标时间段为基于所述接收时间确定的时间段；所述多条第二告警流量中每条第二告警流量与所述第一告警流量的相似度均大于预设阈值；对所述多条第二告警流量进行特征提取，获得第一特征信息；基于所述第一特征信息，判断所述第一告警流量是否为恶意流量。实施本申请实施例，可以通过多流回溯的方法提升现网中恶意流量识别的准确率。权利要求书4页说明书21页附图9页 CN 114697068 A 2022.07.01 CN 114697068 A 1.一种恶意流量识别方法，其特征在于，包括：确定第一告警流量的接收时间；基于预设策略获取目标时间段内与所述第一告警流量对应的多条第二告警流量；所述目标时间段为基于所述接收时间确定的时间段；所述多条第二告警流量中每条第二告警流量与所述第一告警流量的相似度均大于预设阈值；对所述多条第二告警流量进行特征提取，获得第一特征信息；基于所述第一特征信息，判断所述第一告警流量是否为恶意流量。 2.根据权利要求1所述方法，其特征在于，所述预设策略包括：第一策略、第二策略、第三策略中的一个或多个，其中，所述第一策略为基于所述第一告警流量的网际协议IP地址和用户代理UA信息获取所述多条第二告警流量的策略；所述第二策略为基于所述第一告警流量的IP地址和预设泛化规则获取所述多条第二告警流量的策略；所述第三策略为基于所述第一告警流量的IP地址和所述第一告警流量的超文本传输协议HTTP Header信息获取所述多条第二告警流量的策略。 3.根据权利要求2所述方法，其特征在于，所述预设策略为所述第一策略；所述基于预设策略获取目标时间段内与所述第一告警流量对应的多条第二告警流量，包括：获取所述第一告警流量的IP地址和UA信息；采集在所述目标时间段内所述IP地址发送的多条HTTP流中，与所述第一告警流量的UA 信息相同的HT TP流为所述第二告警流量。 4.根据权利要求2所述方法，其特征在于，所述预设策略为所述第二策略，所述基于预设策略获取目标时间段内与所述第一告警流量对应的多条第二告警流量，包括：获取所述第一告警流量的所述 IP地址；采集在所述目标时间段内所述 IP地址发送的多条第一HT TP流；对多条第一HTTP流按照所述预设泛化规则进行泛化处理，获得多条第二HTTP流，所述预设泛化规则为对所述多条第一HTTP流中每一条第一HTTP流对应的目标字符串，使用预设标准进行统一替换；从所述多条第二HTTP流中，筛选出与所述第一告警流量之间相似度大于所述预设阈值的目标第二HT TP流为所述第二告警流量。 5.根据权利要求2所述方法，其特征在于，所述预设策略为所述第三策略，所述基于预设策略获取目标时间段内与所述第一告警流量对应的多条第二告警流量，包括：获取所述第一告警流量的所述 IP地址和所述HT TP Header信息；采集在所述目标时间段内所述 IP地址发送的多条第三HT TP流；分别对所述多条第三HTTP流中每一条第三HTTP流对应的HTTP Header进行N ‑gram处理，获得第一矩阵，所述第一矩阵包括所述每一条第三HTTP流对应的HTTP Header序列信息；对所述第一矩阵进行降维处理，提取降维处理后的第一矩阵中与所述第一告警流量的 HTTP Header信息匹配的目标HT TP Header序列信息；基于所述目标HTTP Header序列信息，获取所述目标HTTP Header序列信息对应的第三 HTTP流为所述第二告警流量。 6.根据权利要求1 ‑5所述任意一项方法，其特征在于，所述第一特征信息为特征表示向权　利　要　求　书 1/4 页 2 CN 114697068 A 2量；所述对所述多条第二告警流量进行特征提取，获得第一特征信息，包括：对所述多条第二告警流量进行特征提取，获得所述多条第二告警流量对应的行为特征信息，所述行为特征信息包括：连接行为特征，请求差异特征，请求响应特征中的一个或多个；根据所述行为特征信息，获取所述特征表示向量。 7.根据权利要求1 ‑6所述任意一项方法，其特征在于，所述根据所述第一特征信息，判断所述第一告警流量是否为恶意流量，包括：基于所述第一特征信息通过回溯模型进行检测，获得第一检测结果；基于所述多条第二告警流量通过基线模型进行检测，获得第二检测结果，其中，所述基线模型是基于历史流量预先训练好的检测模型；基于所述第一检测结果和所述第二检测结果，判断所述第一告警流量是否为恶意流量。 8.根据权利要求1 ‑7所述任意一项方法，其特征在于，所述方法还包括：若所述第一告警流量为恶意流量，对所述第一告警流量进行预设泛化处理，获得泛化后的第一告警流量；将所述泛化后的第一告警流量进行分类，确定所述第一告警流量匹配的恶意流量类型。 9.根据权利要求1所述方法，其特征在于，所述确定第一告警流量的接收时间之前，还包括：接收多条第四HT TP流；对所述多条第四HTTP流中每一条第四HTTP流进行特征提取，获得第二特征集合，所述第二特征集合包括所述多条第四HT TP流分别对应的第二特征信息；基于所述第二特征集合，通过第一分类模型，从所述多条第四HTTP流中筛选出所述第一告警流量。 10.根据权利要求9所述方法，其特征在于，所述第二特征信息包括手工特征信息和/或表示学习特征信息；其中，所述手工特征信息包括：第四HTTP流对应的域名可读性特征、统一资源定位符URL结构特征、行为指示特征、 HTTP Header特征中的一个或多个；所述表示学习特征信息包括第四HT TP流对应的高维特征。 11.一种恶意流量识别装置，其特征在于，包括：确定单元，用于确定第一告警流量的接收时间；回溯单元，用于基于预设策略获取目标时间段内与所述第一告警流量对应的多条第二告警流量；所述目标时间段为基于所述接收时间确定的时间段；所述多条第二告警流量中每条第二告警流量与所述第一告警流量的相似度均大于预设阈值；提取单元，用于对所述多条第二告警流量进行特征提取，获得第一特征信息；判断单元，用于基于所述第一特征信息，判断所述第一告警流量是否为恶意流量。 12.根据权利要求11所述装置，其特征在于，所述预设策略包括：第一策略、第二策略、第三策略中的一个或多个，其中，所述第一策略为基于所述第一告警流量的网际协议IP地址和用户代理UA信息获取所述多条第二告警流量的策略；所述第二策略为基于所述第一告警流量的IP地址和预设泛化规则获取所述多条第二告警流量的策略；所述第三策略为基于权　利　要　求　书 2/4 页 3 CN 114697068 A 3

专利 一种恶意流量识别方法及相关装置

专利一种恶意流量识别方法及相关装置