说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111359514.2 (22)申请日 2021.11.17 (71)申请人 浪潮云信息技 术股份公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人 房彤 胡清  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 代理人 孙园园 (51)Int.Cl. H04L 9/40(2022.01) H04L 67/1097(2022.01) G06F 16/14(2019.01) G06F 16/182(2019.01) G06F 16/35(2019.01)G06F 40/216(2020.01) G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称 基于Spar k的网络异常流量检测的方法及系 统 (57)摘要 本发明公开了基于Spark的网络异常流量检 测的方法及系统, 属于分布式计算框架Spark及 大数据存储框架HDFS技术领域, 本发明要 解决的 技术问题为如何迅速地根据实时记录改变安全 策略, 减轻运维人员的工作压力, 实现更快速地 识别出异常攻击识别与分布, 采用的技术方案 为: 该方法是由Flume  NG汇聚节点所收集到的日 志数据经过Kafka集群, 基于Spark对日志数据进 行特征采集 分析, 并通过训练好的逻辑回归模型 进行日志数据识别, 最终将SparkStreaming实时 计算程序处理结果显示输出给用户。 该系统包括 定义模块、 载入 模块、 提取模块及获取模块。 权利要求书3页 说明书7页 附图1页 CN 114124509 A 2022.03.01 CN 114124509 A 1.一种基于Spark的网络异常流量检测的方法, 其特征在于, 该方法是由Flume  NG汇聚 节点所收集到的日志数据经过Kafka集群, 基于Spark对日志数据进行特征采集分析, 并通 过训练好的逻辑回归模型进行日志数据识别, 最终将Spark  Streaming实时计算程序处理 结果显示输出 给用户; 具体如下: 定义Spark从日志文件中读取当前系统的日志数据访问流程, 从Log日志文件中获取到 请求总数、 访客数、 资源流量大小及日志大小的参数, Spark根据实时状态码比例 preProcessing获取当前访问的状态码的方法, 将访问记录信息进行数据预处理并添加标 记; Spark载入处 理后的日志数据进行处 理, 得到ngram序列; Spark载入数据并通过TF ‑IDF对数据进行特征提取, 在进行哈希词频统计和区分程度 估算, 使用分类器进行逻辑回归运算, 获取到label,feature列, 对于已备注label与 features标签的数据进行逻辑回归, 利用数据集进行训练得到逻辑回归模型; 其中, label 表示数据的标签, feature表示URL数据中的各个特 征; 加载训练好的逻辑回归模型进行入侵加测, 在去空值处理后, 带入逻辑回归模型获取 处理结果。 2.根据权利要求1所述的基于SparkK的网络异常流量检测的方法, 其特征在于, Spark 载入处理后的日志数据进行处 理, 得到ngram序列具体如下: 载入数据集, 对数据集添加标记, 正常数据标为0, 异常数据标为1; 将正常数据、 异常数据与合并后的数据集 转为DataFrame, 载入处 理后的数据; 打散为单字符序列, 得到ngram序列。 3.根据权利要求1所述的基于Spark的网络异常流量检测的方法, 其特征在于, Spark载 入数据并通过TF ‑IDF对数据进行 特征提取具体如下: HashingTF与CountVectorizer用于生成词频TF向量; 其中, HashingTF是一个特征词集 的转换器, 将集 合转换成固定 长度的特 征向量; HashingTF利用hashi ngtrick, 原始特征通过应用哈希函数映射到索引中; 根据哈希函数映射的索引计算词频; IDFModel获取 特征向量并缩放每列; 提取URL数据的请求 IP、 身份统计、 时间戳、 请求方式及状态码的特 征值。 4.根据权利要求1 ‑3中任一所述的基于Spark的网络异常流量检测的方法, 其特征在 于, 入侵加测采用Spark  MLlib, 入侵加测具体为: 对于得到的为止URL数据进行特征提取, 使用逻辑回归 模型将未知数据进行分类, 得到 逻辑回归 模型对于未知数据识别的结果; 去空值处 理是指对指定的列进行填充。 5.根据权利要求1所述的基于Spark的网络异常流量检测的方法, 其特征在于, 日志数 据处理方式包括: ①、 实时日志数据的处理: 日志数据 被传输至Kafka消息队列系统中,Spark  Streaming 实时计算程序通过拉取Kafka中的日志信息进行 处理, 实时输出日志处理信息,并将处理结 果存储至HBase中, 用户通过对HBase操作进行日志查询); ②、 离线日志数据的处理: 日志数据被持久化到HDFS中,HDFS中保存的是最近一周的原 始日志数据,通过Spark离线分析程序对这些日志进行分析处 理,输出处 理结果;权 利 要 求 书 1/3 页 2 CN 114124509 A 2其中, 日志数据存 储使用HDFS与Redis。 6.根据权利要求1所述的基于Spark的网络异常流量检测的方法, 其特征在于, 基于 Spark对日志数据进行 特征采集分析 具体如下: 用户使用Spark将日志数据中访问记录元 数据过滤出来; 通过Apache  Flume将实时日志数据进行聚合处理; 同时, Apache  Flume获取到当前日 志文件的所有内容, 并记录每一个文件大小及存 储位置; Spark按照Apac he Kafka的方法进行日志数据的分发; Spark根据bad_count进行数据特征识别, 同时根据bad_count选择合并访问量并将异 常访问单独 计数; 其中, 合并小 文件的方式包括基于表名和基于路径; Spark根据实时入侵分类计数url_cate_count_timeline方法提供了基于异常IP和异 常访问地址两种方式入侵识别计数的功能, 并根据url_cate_count_timeline生成异常访 问的并集并且生成时间戳, 同时根据地理位置与IP地址实时显示在地图中。 7.一种基于Spark的网络异常流 量检测的系统, 其特 征在于, 该系统包括, 定义模块, 用于定义Spark从日志文件中读取当前系统的日志数据访问流程, 从Log日 志文件中获取到请求总数、 访客数、 资源流量大小及日志大小的参数, Spark根据 实时状态 码比例preProcessing获取当前访问的状态码的方法, 将访问记录信息进行数据预处理并 添加标记; 载入模块, 用于Spark载入处 理后的日志数据进行处 理, 得到ngram序列; 提取模块, 用于Spark载入数据并通过TF ‑IDF对数据进行特征提取, 在进行哈希词频统 计和区分程度估算, 使用分类器进行逻辑回归运算, 获取到label,feature列, 对于已备注 label与features标签的数据进行逻辑回归, 利用数据集进行训练得到逻辑回归模型; 其 中, label表示数据的标签, feature表示URL数据中的各个特 征; 获取模块, 用于加载训练好的逻辑 回归模型进行入侵加测, 在去空值处理后, 带入逻辑 回归模型获取处 理结果。 8.根据权利要求7所述的基于Spark的网络异常流量检测的系统, 其特征在于, 所述载 入模块包括, 标记子模块, 用于载入数据集, 对数据集添加标记, 正常数据标为0, 异常数据标为1; 转化模块, 用于将正常数据、 异常数据与合并后的数据集转为DataFrame, 载入处理后 的数据; 打散模块, 用于打散为单字符序列, 得到ngram序列; 所述提取模块包括, 生成子模块, 用于通过HashingTF与CountVectorizer生成词频TF向量; 其中, HashingTF是一个特 征词集的转换器, 将集 合转换成固定 长度的特 征向量; 映射子模块, 用于HashingTF利用hashingtrick, 将原始特征通过应用哈希函数映射到 索引中; 计算子模块, 用于根据哈希函数映射的索引计算词频; 缩放模块, 用于IDFModel获取 特征向量并缩放每列; 提取子模块, 用于提取URL数据的请求IP、 身份统计、 时间戳、 请求方式及状态码的特征 值。权 利 要 求 书 2/3 页 3 CN 114124509 A 3

.PDF文档 专利 基于Spark的网络异常流量检测的方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Spark的网络异常流量检测的方法及系统 第 1 页 专利 基于Spark的网络异常流量检测的方法及系统 第 2 页 专利 基于Spark的网络异常流量检测的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:01:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。