(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111576320.8
(22)申请日 2021.12.21
(71)申请人 中国科学院信息 工程研究所
地址 100093 北京市海淀区闵庄路甲89号
(72)发明人 王利明 井春蕾 侯雨桥 卢至彤
陈凯 周少磊
(74)专利代理 机构 北京科迪生专利代理有限责
任公司 1 1251
代理人 金怡
(51)Int.Cl.
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04L 9/40(2022.01)
H04L 67/1396(2022.01)
(54)发明名称
一种基于孪生网络的内部威胁的检测方法
及系统
(57)摘要
本发明涉及一种基于孪生网络的内部威胁
的检测方法及系统, 其方法包 括: S1: 获取内部威
胁测试数据集进行预处理, 构建样本集, 将样本
集划分为训练集、 待检测样本集和标准样本集;
S2: 从训练集随机选取一个样本对及其类别标签
构成输入三元组, 将三元组输入孪生网络模型,
计算得到的两个二维样本向量的欧式距离, 并根
据预设阈值, 以判定二者是否属于同一类别; 步
骤S3: 分别从待检测样本集和标准样本集各取一
个样本, 输入训练好的孪生网络模型, 判断二者
是否属于同一类别, 从而确定待检测样本的类
别。 本发明提供的检测方法, 全面地分析用户行
为, 实现更加准确地内部威胁检测, 且对于数据
集是否平衡不敏感, 提高了系统的智能性。
权利要求书2页 说明书5页 附图2页
CN 114266342 A
2022.04.01
CN 114266342 A
1.一种基于 孪生网络的内部威胁的检测方法, 其特 征在于, 包括:
步骤S1: 获取内部威胁测试数据集进行预处理, 将用户每天的行为活动表示为灰度图,
构建样本集, 将所述样本集划分为训练集、 待检测样本集和标准样本集;
步骤S2: 从所述训练集随机选取一个样本对(X1,X2)及其类别标签Y构成输入三元组
(X1,X2,Y), 将所述三元组输入孪生网络模型, 依次经过卷积层、 池化层和全连接层, 得到二
维样本向量; 计算两个所述二 维样本向量的欧式距离, 并根据预设阈值, 以判定二者是否属
于同一类别; 将所述孪生网络模型输出类别与所述类别标签Y进 行比对, 构建对比损失函数
计算损失并迭代训练模型, 直到得到训练好的孪生网络模型;
步骤S3: 分别从所述待检测样本集和所述标准样本集各取一个样本, 输入所述训练好
的孪生网络模型, 判断二 者是否属于同一类别, 从而确定待检测样本的类别。
2.根据权利要求1所述的基于孪生网络的内部威胁的检测方法, 其特征在于, 所述步骤
S1: 获取内部威胁测试数据集进 行预处理, 将用户每天的行为活动表示为灰度图, 构建样本
集, 将所述样本集划分为训练集、 待检测样本集和标准样本集, 具体包括:
步骤S11: 获取内部威胁测试数据集, 包括: 用户登录日志、 移动设备连接日志、 文件访
问日志、 邮件通信日志以及 网络浏览日志数据, 以及每个所述用户所属职位、 部门、 工作期
限和参与项目的LDAP数据; 从上述日志数据中提取所述用户每天的日志数据构成一个活动
集合, 用于代 表该用户一天的所有行为;
步骤S12: 从所述活动集合提取该用户一天的活动信息, 并按时间和活动类型编码构成
活动矩阵;
步骤S13: 将所述活动矩阵按照灰度图转化标准转化为灰度图, 如公式(1)所示, 构 建得
到样本集; 其中, 每张所述灰度图代 表一个所述用户一天所有活动信息;
其中, Ii,j表示第i个用户在第j天的活动灰度图表示,
表示该用户一天的活动编
码矩阵, f表示矩阵转 化灰度图函数;
步骤S14: 按预设比例随机将样本集分成三份, 分别为训练集、 待检测样本集和标准样
本集。
3.根据权利要求1所述的基于孪生网络的内部威胁的检测方法, 其特征在于, 所述步骤
S2: 从所述训练集随机选取一个样本对(X1,X2)及其类别标签Y构成输入三元组X1,X2,Y), 将
所述三元组输入孪生网络模型, 依 次经过卷积层、 池化层和全连接层, 得到二维样本 向量;
计算两个所述二 维样本向量的欧式距离, 并根据预设阈值, 以判定二者是否属于同一类别;
将所述孪生网络模型输出类别与所述类别标签Y进行比对, 构建对比损失函数计算损失并
迭代训练模型, 直到得到训练好的孪生网络模型, 具体包括:
步骤S21: 构建所述孪生网络模型, 包括: 卷积层、 池化层和全连接层, 输入所述三元组
(X1,X2,Y), 输出为两个二维样本向量V, 如公式(2)所示:
V=CNN((Ii, j)(V∈R2) (2)
其中, V表示样本经 过CNN卷积操作后得到的二维样本向量;
步骤S22: 设定阈值m, 计算两个所述二维样本向量之间的欧式距离, 如果小于m, 则判定
所述样本对属于同一类别, 否则属于不同类别;权 利 要 求 书 1/2 页
2
CN 114266342 A
2步骤S23: 构 建对比损失函数, 如公式(3)所示; 若不同类别样本对的距离大于m, 证明所
述孪生网络模型可以区分类别差异, 损失函数即为0, 反之, 则所述孪生网络模型无法区分
类别差异, 损失函数为β(m ‑DW), 将其反馈 到所述孪生网络模型中进行梯度迭代:
其中, LS为相同类别样本的损失, LD为不同类别样本的损失; W是要学习的共享参数; DW
是两个所述二维样本向量之间的欧式距离,
P
代表样本的特征维度; N代表样本数量, m是所述孪生网络模型训练过程中设置的阈值, β 是
设定的权 重。
4.根据权利要求1所述的基于孪生网络的内部威胁的检测方法, 其特征在于, 所述步骤
S3: 分别从所述待检测样本集和所述标准样本集各取一个样本, 输入所述训练好的孪生网
络模型, 判断二 者是否属于同一类别, 从而确定待检测样本的类别, 具体包括:
步骤S31: 将所述待检测 样本集中的一个样本, 与所述标准样本集中一个样本组成样本
对, 输入所述训练好的孪生网络模型, 得到 两个二维样本向量;
步骤S32: 计算两个所述二维样本向量的欧式距离, 并与设定的阈值比较, 若距离小于
该阈值, 则判断两个样本属于同一类别, 否则视为 不同类别, 从而得到待检测样本的类别;
步骤S33: 依次从所述待检测样本集中取出下一个样本与所述标准样本集中的样本组
成样本对, 重复执 行S31~S32, 直到待检测样本集中样本全部被 检测完。
5.一种基于 孪生网络的内部威胁的检测系统, 其特 征在于, 包括下述模块:
获取数据集模块, 用于获取内部威胁测试数据集进行预处理, 将用户每天的行为活动
表示为灰度图, 构建样本集, 将所述样本集划分为训练集、 待检测样本集和标准样本集;
网络模型训练模块, 用于从所述训练集随机选取一个样本对(X1,X2)及其类别标签Y构
成输入三 元组(X1,X2,Y), 将所述三 元组输入 孪生网络模型, 依次经过卷积层、 池化层和全连
接层, 得到二维样本向量; 计算两个所述二维样本向量的欧式距离, 并根据预设阈值, 以判
定二者是否属于同一类别; 将所述孪生网络模型输出类别与所述类别标签Y进 行比对, 构建
对比损失函数计算损失并迭代训练模型, 直到得到训练好的孪生网络模型;
内部威胁检测模块, 用于分别从所述待检测样本集和所述标准样本集各取一个样本,
输入所述训练好的孪生网络模型, 判断二者是否属于同一类别, 从而确定待检测样本的类
别。权 利 要 求 书 2/2 页
3
CN 114266342 A
3
专利 一种基于孪生网络的内部威胁的检测方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:33:06上传分享