专利 基于Spark的网络异常流量检测的方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111359514.2 (22)申请日 2021.11.17 (71)申请人浪潮云信息技术股份公司地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人房彤　胡清　 (74)专利代理机构济南信达专利事务所有限公司 37100 代理人孙园园 (51)Int.Cl. H04L 9/40(2022.01) H04L 67/1097(2022.01) G06F 16/14(2019.01) G06F 16/182(2019.01) G06F 16/35(2019.01)G06F 40/216(2020.01) G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称基于Spar k的网络异常流量检测的方法及系统 (57)摘要本发明公开了基于Spark的网络异常流量检测的方法及系统，属于分布式计算框架Spark及大数据存储框架HDFS技术领域，本发明要解决的技术问题为如何迅速地根据实时记录改变安全策略，减轻运维人员的工作压力，实现更快速地识别出异常攻击识别与分布，采用的技术方案为：该方法是由Flume NG汇聚节点所收集到的日志数据经过Kafka集群，基于Spark对日志数据进行特征采集分析，并通过训练好的逻辑回归模型进行日志数据识别，最终将SparkStreaming实时计算程序处理结果显示输出给用户。该系统包括定义模块、载入模块、提取模块及获取模块。权利要求书3页说明书7页附图1页 CN 114124509 A 2022.03.01 CN 114124509 A 1.一种基于Spark的网络异常流量检测的方法，其特征在于，该方法是由Flume NG汇聚节点所收集到的日志数据经过Kafka集群，基于Spark对日志数据进行特征采集分析，并通过训练好的逻辑回归模型进行日志数据识别，最终将Spark Streaming实时计算程序处理结果显示输出给用户；具体如下：定义Spark从日志文件中读取当前系统的日志数据访问流程，从Log日志文件中获取到请求总数、访客数、资源流量大小及日志大小的参数， Spark根据实时状态码比例 preProcessing获取当前访问的状态码的方法，将访问记录信息进行数据预处理并添加标记； Spark载入处理后的日志数据进行处理，得到ngram序列； Spark载入数据并通过TF ‑IDF对数据进行特征提取，在进行哈希词频统计和区分程度估算，使用分类器进行逻辑回归运算，获取到label,feature列，对于已备注label与 features标签的数据进行逻辑回归，利用数据集进行训练得到逻辑回归模型；其中， label 表示数据的标签， feature表示URL数据中的各个特征；加载训练好的逻辑回归模型进行入侵加测，在去空值处理后，带入逻辑回归模型获取处理结果。 2.根据权利要求1所述的基于SparkK的网络异常流量检测的方法，其特征在于， Spark 载入处理后的日志数据进行处理，得到ngram序列具体如下：载入数据集，对数据集添加标记，正常数据标为0，异常数据标为1；将正常数据、异常数据与合并后的数据集转为DataFrame，载入处理后的数据；打散为单字符序列，得到ngram序列。 3.根据权利要求1所述的基于Spark的网络异常流量检测的方法，其特征在于， Spark载入数据并通过TF ‑IDF对数据进行特征提取具体如下： HashingTF与CountVectorizer用于生成词频TF向量；其中， HashingTF是一个特征词集的转换器，将集合转换成固定长度的特征向量； HashingTF利用hashi ngtrick，原始特征通过应用哈希函数映射到索引中；根据哈希函数映射的索引计算词频； IDFModel获取特征向量并缩放每列；提取URL数据的请求 IP、身份统计、时间戳、请求方式及状态码的特征值。 4.根据权利要求1 ‑3中任一所述的基于Spark的网络异常流量检测的方法，其特征在于，入侵加测采用Spark MLlib，入侵加测具体为：对于得到的为止URL数据进行特征提取，使用逻辑回归模型将未知数据进行分类，得到逻辑回归模型对于未知数据识别的结果；去空值处理是指对指定的列进行填充。 5.根据权利要求1所述的基于Spark的网络异常流量检测的方法，其特征在于，日志数据处理方式包括： ①、实时日志数据的处理：日志数据被传输至Kafka消息队列系统中,Spark Streaming 实时计算程序通过拉取Kafka中的日志信息进行处理，实时输出日志处理信息,并将处理结果存储至HBase中，用户通过对HBase操作进行日志查询)； ②、离线日志数据的处理：日志数据被持久化到HDFS中,HDFS中保存的是最近一周的原始日志数据,通过Spark离线分析程序对这些日志进行分析处理,输出处理结果；权　利　要　求　书 1/3 页 2 CN 114124509 A 2其中，日志数据存储使用HDFS与Redis。 6.根据权利要求1所述的基于Spark的网络异常流量检测的方法，其特征在于，基于 Spark对日志数据进行特征采集分析具体如下：用户使用Spark将日志数据中访问记录元数据过滤出来；通过Apache Flume将实时日志数据进行聚合处理；同时， Apache Flume获取到当前日志文件的所有内容，并记录每一个文件大小及存储位置； Spark按照Apac he Kafka的方法进行日志数据的分发； Spark根据bad_count进行数据特征识别，同时根据bad_count选择合并访问量并将异常访问单独计数；其中，合并小文件的方式包括基于表名和基于路径； Spark根据实时入侵分类计数url_cate_count_timeline方法提供了基于异常IP和异常访问地址两种方式入侵识别计数的功能，并根据url_cate_count_timeline生成异常访问的并集并且生成时间戳，同时根据地理位置与IP地址实时显示在地图中。 7.一种基于Spark的网络异常流量检测的系统，其特征在于，该系统包括，定义模块，用于定义Spark从日志文件中读取当前系统的日志数据访问流程，从Log日志文件中获取到请求总数、访客数、资源流量大小及日志大小的参数， Spark根据实时状态码比例preProcessing获取当前访问的状态码的方法，将访问记录信息进行数据预处理并添加标记；载入模块，用于Spark载入处理后的日志数据进行处理，得到ngram序列；提取模块，用于Spark载入数据并通过TF ‑IDF对数据进行特征提取，在进行哈希词频统计和区分程度估算，使用分类器进行逻辑回归运算，获取到label,feature列，对于已备注 label与features标签的数据进行逻辑回归，利用数据集进行训练得到逻辑回归模型；其中， label表示数据的标签， feature表示URL数据中的各个特征；获取模块，用于加载训练好的逻辑回归模型进行入侵加测，在去空值处理后，带入逻辑回归模型获取处理结果。 8.根据权利要求7所述的基于Spark的网络异常流量检测的系统，其特征在于，所述载入模块包括，标记子模块，用于载入数据集，对数据集添加标记，正常数据标为0，异常数据标为1；转化模块，用于将正常数据、异常数据与合并后的数据集转为DataFrame，载入处理后的数据；打散模块，用于打散为单字符序列，得到ngram序列；所述提取模块包括，生成子模块，用于通过HashingTF与CountVectorizer生成词频TF向量；其中， HashingTF是一个特征词集的转换器，将集合转换成固定长度的特征向量；映射子模块，用于HashingTF利用hashingtrick，将原始特征通过应用哈希函数映射到索引中；计算子模块，用于根据哈希函数映射的索引计算词频；缩放模块，用于IDFModel获取特征向量并缩放每列；提取子模块，用于提取URL数据的请求IP、身份统计、时间戳、请求方式及状态码的特征值。权　利　要　求　书 2/3 页 3 CN 114124509 A 3

专利 基于Spark的网络异常流量检测的方法及系统

专利基于Spark的网络异常流量检测的方法及系统