(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111564710.3
(22)申请日 2021.12.20
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 刘健 侯潇扬 张睿 任奎
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
代理人 邱启旺
(51)Int.Cl.
H04L 9/40(2022.01)
(54)发明名称
一种基于关键词的隐私保护流 量检测方法
(57)摘要
本发明公开了一种基于关键词的隐私保护
流量检测方法。 该方法主要包括如下步骤: 1)关
键词提取: 基于正则表达式, 提取出关键词集合;
2)流量处理: 找出流量中匹配到关键词的位置,
将未匹配的部分替换为脱敏信息; 3)流量检测:
使用正则表达式检测处理后的流量并记录检测
结果4)数据校验: 校验数据完整性, 确保检测系
统正常工作。 本发明首次提出了基于关键词的中
间盒隐私保护流量检测技术, 在保护用户流量隐
私的同时达到与明文检测相似的精 准度, 适用于
当前以高频率短连接为主的网络环 境, 效果优于
现有方法, 且具有效率高、 延 迟低、 方便部署等特
点。
权利要求书1页 说明书5页 附图1页
CN 114363016 A
2022.04.15
CN 114363016 A
1.一种基于关键词的隐私保护流 量检测方法, 其特 征在于, 包括如下步骤:
(1)关键词提取: 中间盒 从正则表达式 中提取出关键词。
(2)流量处理: 客户端使用步骤(1)得到的关键词, 找出流量中这些关键词匹配的位置,
将未匹配的部分替换为脱敏信息 。
(3)流量检测: 中间盒使用正则表达式匹配步骤(2)得到的脱敏流量, 记录每个正则表
达式的匹配结果。
2.根据权利要求1所述基于关键词的隐私保护流量检测方法, 其特征在于, 所述步骤
(1)包括如下子步骤:
(1.1)根据正则表达式, 将 ‘*’ ‘+’前面的连续字符看作关键词。
(1.2)根据正则表达式, 将 ‘?’前的连续字符看作一个关键词, 并去掉其最后一个字符
作为另一个关键词。
(1.3)根据正则表达式, 将 ‘|’前后的连续字符分别看作两个关键词。
(1.4)基于步骤(1.1)~(1.3)得到的关键词, 去除其中重复 的关键词, 得到关键词集合
KW。
3.根据权利要求1所述基于关键词的隐私保护流量检测方法, 其特征在于, 所述步骤
(2)包括如下子步骤:
(2.1)对于步骤(1)得到的关键词集合KW, 遍历其 中所有的关键词kw, 在流量S中找到其
出现的所有位置并做标记。
(2.2)基于步骤(2.1)得到的关键词在流量S中出现的位置, 将流量中被标记字符保留
不变。 对于未被标记的字符, 将其中在 ‘a’和‘f’之间(包括 ‘a’和‘f’)的字符替换为 ‘a’, 将
其中在‘g’和‘z’之间(包含 ‘g’和‘z’)的字符替换为 ‘z’, 将其中在 ‘A’和‘F’之间(包括 ‘A’
和‘F’)的字符替换为 ‘A’, 将其中在 ‘G’和‘Z’之间(包含 ‘G’和‘Z’)的字符替换为 ‘Z’, 将其
中的数字字 符替换为‘0’, 将其中的空白字 符替换为换行符, 将其他在ASCII128范围中的字
符替换为‘\X00’, 将其他在extend ASCII范围中的字符替换为 ‘\XF0’。 得到处理后的流量
S′。
4.根据权利要求3所述基于关键词的隐私保护流量检测方法, 其特征在于, 所述空白字
符包括空格、 水平制表符、 垂直制表符、 换 行符、 换页符、 回车符等。
5.根据权利要求3所述基于关键词的隐私保护流量检测方法, 其特征在于, 所述步骤
(3)具体为: 基于步骤(2.2)得到的处理后的流量S ′, 使用正则表达式进 行匹配, 记录每条正
则表达式与之匹配的结果。
6.根据权利要求1所述基于关键词的隐私保护流量检测方法, 其特征在于, 还包括数据
校验: 服务端使用步骤(1)得到的关键词, 重新执行步骤(2), 对比两次流量处理的结果, 确
保系统正常运行。
7.根据权利要求6所述的基于关键词的隐私保护流量检测方法, 其特征在于, 所述数据
校验, 包括如下子步骤:
(4.1)服务端基于步骤(1)得到的关键词集合KW和接收到的流量T, 执行步骤(2)得到
T′。
(4.2)对比S和T是否一致, 对比S ′和T′是否一致, 若S和T一致并且S ′和T′一致, 说明系
统正常工作。 否则, 说明客户端或中间盒工作执 行错误, 服务端拒绝接受流 量T。权 利 要 求 书 1/1 页
2
CN 114363016 A
2一种基于关键词的隐私 保护流量 检测方法
技术领域
[0001]本发明属于计算机网络安全领域, 尤其涉及一种基于关键词的隐私保护流量检测
方法。
背景技术
[0002]深度包检测(Deep Packet Inspection)是一种针对于网络流量的模式匹配, 被广
泛应用于内容感知网络应用, 如网络入侵检测系统、 流量计费、 负载平衡、 垃圾邮件拦截过
滤和政府监视系统。 深度包检测检查每个数据包的内容, 识别具有某些特征的流量, 如携带
病毒或含有攻击指 令。 为了精准地分析流量的特征, 最常见的方法是使用正则表达式, 首先
使用正则表达式定义特征模式, 之后使用已有的正则表达式尝试匹配网络流量, 若匹配成
功, 则说明该流量具有对应正则表达式的特征。 正则表达式具有远超于关键词匹配的灵活
性和表达能力, 可以轻松地描述复杂的字符串特 征。
[0003]为了更好地部署网络流量检测服务, 便于后期的维护和更新, 一般将检测系统部
署在一种称为 “中间盒”的网络设备上(Justine Sherry,Shaddi Hasan,Colin Scott,
Arvind Krishnamurthy,Sylvia Ratnasamy,and Vyas Sekar.Making Middleboxes
Someone Else’s Problem:Network Processing as a Cloud Service.In Proceedings
of the ACM SIGCOMM 2012Conference on Applications,Technologies,Ar chitectures,
and Protocols for Computer Communication,SIGCOMM ’12,page 13–24,New York,NY,
USA,2012.Association for Computing Machinery.)。 中间盒位于通信双方 的路由链路
上, 负责检测流经 的网络流量, 并根据检测结果执行相应的策略, 比如放行正常流量、 遇到
恶意流量时发出警报并丢弃 该数据包。
[0004]随着人们对个人隐私的重视性不断提高, 可以保护用户网络通信隐私的HTTPS协
议正在广泛地被采纳, 加密流量所占比重飞速增加, 根据NetMarkShare的调查报告, 在2019
年10月, 网络中超过90%的流 量使用TLS、 S SL加密。
[0005]近几年提出了许多隐私保护流量检测技术, 在保护用户隐私安全的条件下进行流
量分析。 其中一个著名的解决方案BlindBox(Justine Sherry,Chang Lan,Raluca Ada
Popa,and Sylvia Ratnasamy.BlindBox:Deep Packet Inspection over Encrypted
Traffic.In Proceedings of the 2015ACM Conference on Special Interest Group on
Data Communication,SIGCOMM ’15,page 213–226,New York,NY,USA,2015.Association
for Computing Machinery.)通过一系列密码学工具, 实现了隐私保护的关键词匹配流量
检测, 但对于正则表达式, BlindBox仍然需要对加密流量进 行解密, 得到其明文再用正则表
达式进行分析。
[0006]为了支持正则表达式, SPABox(Hassan Jameel Asghar,Luca Melis,Cyril
Soldani,Emiliano De Cristofaro,Mohamed Ali Kaafar,and Laurent Mathy.Splitbox:
Toward efficient private network function virtualization.In Proceedings of
the 2016Workshop on Hot Topics in Middleboxes and Network Function 说 明 书 1/5 页
3
CN 114363016 A
3
专利 一种基于关键词的隐私保护流量检测方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:32:56上传分享