(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111359514.2
(22)申请日 2021.11.17
(71)申请人 浪潮云信息技 术股份公司
地址 250100 山东省济南市高新区浪潮路
1036号浪潮科技园S01号楼
(72)发明人 房彤 胡清
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
代理人 孙园园
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 67/1097(2022.01)
G06F 16/14(2019.01)
G06F 16/182(2019.01)
G06F 16/35(2019.01)G06F 40/216(2020.01)
G06F 40/284(2020.01)
G06N 20/00(2019.01)
(54)发明名称
基于Spar k的网络异常流量检测的方法及系
统
(57)摘要
本发明公开了基于Spark的网络异常流量检
测的方法及系统, 属于分布式计算框架Spark及
大数据存储框架HDFS技术领域, 本发明要 解决的
技术问题为如何迅速地根据实时记录改变安全
策略, 减轻运维人员的工作压力, 实现更快速地
识别出异常攻击识别与分布, 采用的技术方案
为: 该方法是由Flume NG汇聚节点所收集到的日
志数据经过Kafka集群, 基于Spark对日志数据进
行特征采集 分析, 并通过训练好的逻辑回归模型
进行日志数据识别, 最终将SparkStreaming实时
计算程序处理结果显示输出给用户。 该系统包括
定义模块、 载入 模块、 提取模块及获取模块。
权利要求书3页 说明书7页 附图1页
CN 114124509 A
2022.03.01
CN 114124509 A
1.一种基于Spark的网络异常流量检测的方法, 其特征在于, 该方法是由Flume NG汇聚
节点所收集到的日志数据经过Kafka集群, 基于Spark对日志数据进行特征采集分析, 并通
过训练好的逻辑回归模型进行日志数据识别, 最终将Spark Streaming实时计算程序处理
结果显示输出 给用户; 具体如下:
定义Spark从日志文件中读取当前系统的日志数据访问流程, 从Log日志文件中获取到
请求总数、 访客数、 资源流量大小及日志大小的参数, Spark根据实时状态码比例
preProcessing获取当前访问的状态码的方法, 将访问记录信息进行数据预处理并添加标
记;
Spark载入处 理后的日志数据进行处 理, 得到ngram序列;
Spark载入数据并通过TF ‑IDF对数据进行特征提取, 在进行哈希词频统计和区分程度
估算, 使用分类器进行逻辑回归运算, 获取到label,feature列, 对于已备注label与
features标签的数据进行逻辑回归, 利用数据集进行训练得到逻辑回归模型; 其中, label
表示数据的标签, feature表示URL数据中的各个特 征;
加载训练好的逻辑回归模型进行入侵加测, 在去空值处理后, 带入逻辑回归模型获取
处理结果。
2.根据权利要求1所述的基于SparkK的网络异常流量检测的方法, 其特征在于, Spark
载入处理后的日志数据进行处 理, 得到ngram序列具体如下:
载入数据集, 对数据集添加标记, 正常数据标为0, 异常数据标为1;
将正常数据、 异常数据与合并后的数据集 转为DataFrame, 载入处 理后的数据;
打散为单字符序列, 得到ngram序列。
3.根据权利要求1所述的基于Spark的网络异常流量检测的方法, 其特征在于, Spark载
入数据并通过TF ‑IDF对数据进行 特征提取具体如下:
HashingTF与CountVectorizer用于生成词频TF向量; 其中, HashingTF是一个特征词集
的转换器, 将集 合转换成固定 长度的特 征向量;
HashingTF利用hashi ngtrick, 原始特征通过应用哈希函数映射到索引中;
根据哈希函数映射的索引计算词频;
IDFModel获取 特征向量并缩放每列;
提取URL数据的请求 IP、 身份统计、 时间戳、 请求方式及状态码的特 征值。
4.根据权利要求1 ‑3中任一所述的基于Spark的网络异常流量检测的方法, 其特征在
于, 入侵加测采用Spark MLlib, 入侵加测具体为: 对于得到的为止URL数据进行特征提取,
使用逻辑回归 模型将未知数据进行分类, 得到 逻辑回归 模型对于未知数据识别的结果;
去空值处 理是指对指定的列进行填充。
5.根据权利要求1所述的基于Spark的网络异常流量检测的方法, 其特征在于, 日志数
据处理方式包括:
①、 实时日志数据的处理: 日志数据 被传输至Kafka消息队列系统中,Spark Streaming
实时计算程序通过拉取Kafka中的日志信息进行 处理, 实时输出日志处理信息,并将处理结
果存储至HBase中, 用户通过对HBase操作进行日志查询);
②、 离线日志数据的处理: 日志数据被持久化到HDFS中,HDFS中保存的是最近一周的原
始日志数据,通过Spark离线分析程序对这些日志进行分析处 理,输出处 理结果;权 利 要 求 书 1/3 页
2
CN 114124509 A
2其中, 日志数据存 储使用HDFS与Redis。
6.根据权利要求1所述的基于Spark的网络异常流量检测的方法, 其特征在于, 基于
Spark对日志数据进行 特征采集分析 具体如下:
用户使用Spark将日志数据中访问记录元 数据过滤出来;
通过Apache Flume将实时日志数据进行聚合处理; 同时, Apache Flume获取到当前日
志文件的所有内容, 并记录每一个文件大小及存 储位置;
Spark按照Apac he Kafka的方法进行日志数据的分发;
Spark根据bad_count进行数据特征识别, 同时根据bad_count选择合并访问量并将异
常访问单独 计数; 其中, 合并小 文件的方式包括基于表名和基于路径;
Spark根据实时入侵分类计数url_cate_count_timeline方法提供了基于异常IP和异
常访问地址两种方式入侵识别计数的功能, 并根据url_cate_count_timeline生成异常访
问的并集并且生成时间戳, 同时根据地理位置与IP地址实时显示在地图中。
7.一种基于Spark的网络异常流 量检测的系统, 其特 征在于, 该系统包括,
定义模块, 用于定义Spark从日志文件中读取当前系统的日志数据访问流程, 从Log日
志文件中获取到请求总数、 访客数、 资源流量大小及日志大小的参数, Spark根据 实时状态
码比例preProcessing获取当前访问的状态码的方法, 将访问记录信息进行数据预处理并
添加标记;
载入模块, 用于Spark载入处 理后的日志数据进行处 理, 得到ngram序列;
提取模块, 用于Spark载入数据并通过TF ‑IDF对数据进行特征提取, 在进行哈希词频统
计和区分程度估算, 使用分类器进行逻辑回归运算, 获取到label,feature列, 对于已备注
label与features标签的数据进行逻辑回归, 利用数据集进行训练得到逻辑回归模型; 其
中, label表示数据的标签, feature表示URL数据中的各个特 征;
获取模块, 用于加载训练好的逻辑 回归模型进行入侵加测, 在去空值处理后, 带入逻辑
回归模型获取处 理结果。
8.根据权利要求7所述的基于Spark的网络异常流量检测的系统, 其特征在于, 所述载
入模块包括,
标记子模块, 用于载入数据集, 对数据集添加标记, 正常数据标为0, 异常数据标为1;
转化模块, 用于将正常数据、 异常数据与合并后的数据集转为DataFrame, 载入处理后
的数据;
打散模块, 用于打散为单字符序列, 得到ngram序列;
所述提取模块包括,
生成子模块, 用于通过HashingTF与CountVectorizer生成词频TF向量; 其中,
HashingTF是一个特 征词集的转换器, 将集 合转换成固定 长度的特 征向量;
映射子模块, 用于HashingTF利用hashingtrick, 将原始特征通过应用哈希函数映射到
索引中;
计算子模块, 用于根据哈希函数映射的索引计算词频;
缩放模块, 用于IDFModel获取 特征向量并缩放每列;
提取子模块, 用于提取URL数据的请求IP、 身份统计、 时间戳、 请求方式及状态码的特征
值。权 利 要 求 书 2/3 页
3
CN 114124509 A
3
专利 基于Spark的网络异常流量检测的方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:01:34上传分享