说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210935013.2 (22)申请日 2022.08.04 (71)申请人 北京交通大 学 地址 100044 北京市海淀区上园村 3号 (72)发明人 杜晔 王心蕴 黎妹红 周俊杰 (74)专利代理 机构 北京卫平智业专利代理事务 所(普通合伙) 11392 专利代理师 闫萍 (51)Int.Cl. G06F 21/62(2013.01) G06F 16/35(2019.01) G06F 40/194(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01) (54)发明名称 一种无监 督的密点标注和辅助定密方法 (57)摘要 本发明涉及一种为一种无监督的密点标注 和辅助定密方法, 包括如下步骤: 1)在训练过程 之前, 针对不同秘密类型分别建立语料统计库; 2)从语料统计库中利用算法计算词语置信度, 按 不同类型进行密级置信度排序, 构建密点词库; 3)从语料统计库中利用多特征融合的密点句置 信度评估 方法, 提取已定密文档中不同密级的密 点句, 构建密点句库; 4)利用构建的密点词库和 密点句库对待定密文档进行密点标注; 5)根据待 标注文档的定密结果, 纳入对应类别, 更新词语 统计库中相关词语的记录。 该方法提高了密点标 注的效率和准确率, 通过辅助定密有效避免了定 密的随机性、 主观性。 权利要求书3页 说明书8页 附图2页 CN 115481429 A 2022.12.16 CN 115481429 A 1.一种无监 督的密点标注和辅助定密方法, 其特 征在于, 包括如下步骤: 步骤1, 针对不同秘密类型分别建立语料统计库; 步骤2, 根据步骤1得到的语料统计库计算词语置信度, 按不同类型进行密级置信度排 序, 构建密点词库; 步骤3, 根据步骤1得到的语料统计库, 利用多特征融合的密点句置信度评估算法, 提取 已定密文档中不同密级的密点句, 构建密点句库; 步骤4, 利用步骤2构建的密点词库和步骤3构建的密点句库对待定密文档进行密点标 注; 步骤5, 根据步骤4中得到的待标注文档的定密结果, 纳入对应类别, 更新词语统计库中 相关词语的记录 。 2.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 步骤2所 述根据步骤1得到的预 料统计库计算词语置信度的算法为改进的S S3算法, 如下式(1): gv(w, c)= lvσ(w, c)·sgλ(w, c)·snρ(w, c) (1); 上式中gv(w, c)为词语w专属于类别c的置信度; lvσ(w, c)是根据词 语在类别中的局部概率对词 语进行赋值, 通过定义类内分布系数和 改进局部概率, 考虑类内分布对词语分类区分度的影响, 以及文本间差异所带来的计算偏 差; sgλ(w, c)用于表示词语对 于类别的重要性; snρ(w, c)用于衡 量词语w对类别c重要的唯一 性; lvσ(w, c)、 sgλ(w, c)、 gv(w, c)分别如下式(2)、 (3)、 (4): 其中, nc表示类别c中所有的文本 数量, nw, c表示类别c中包含词语w的文本 数量, dc, j类别 c中的第j篇文本, W是所有词语的集合, wi∈W, 和 分别表示类别c中含有 最多和最少文本数的词语的文本数量, 是词语w在文本dc, j中出现的频数, 是文本dc, j中含有最大词频 数的词语的词频 数量; 其中, LVw={lvσ(w, ci)|ci∈C}, 即词语w的所有局部值的集合; 表示LVw的中位数; 即LVw的绝对中位差; 为超参数; 其中, 即C中除c外, 所有类别的sgλ(w, ci)的总和; 为 超参数。 3.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 步骤3所 述多特征融合的密点句置信度评估算法如下式(5): CScore(si)=γl×classificati on(si)+γ2×position(si)+γ3×summary(si) (5);权 利 要 求 书 1/3 页 2 CN 115481429 A 2其中, si表示文本d的第i个句子, 则d={s1, s2, ..., s|d|}, classification(si)表示句子 si的密点词特征得分, position(si)表示句子si的位置特征得分, summary(si)表示句子si的 总结词特 征得分, γ1、 γ2、 γ3为大于0的实数超参数, 且γ1+γ2+γ3=1。 4.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 所述式 (5)中的clas sificati on(si)、 positi on(si)、 summary(si)分别如下式(6)、 (7)、 (8): 其中, ni, j表示句子si在类别cj的词语总数, mi为句子si中词语的总数, |s|表示句子总 数, wi, k表示句子si的第k个词, gv(wi, k, cj)表示词语wi, k在类别cj的gv值, 的第j个分 量表示句子si在对应类别cj的GV值, 表示向量 的L1范数, 为向量 的最大分 量值, 同时记录GMAX对应的密级作为句子si的密级标签; 其中, i表示si是文本d的第i个句子, |d|表示文本d中句子的总数。 初始position(si)值 随着i值的增加而减少, 当i增长为句 子总数的一半时, position(si)值降至最低值, 随着i 值的持续增加, position(si)值回增, 保证了越靠近文本的首尾段, 句子的位置特征得分越 高; 其中, SList为总结词表, 对句子si的词语进行遍历, 当该句子有总结词表中的总结词 时, 该特征得分为1, 反 之则为0; 上述总结词包括: 所以、 因此、 总之、 总的来说、 综上 所述。 5.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 步骤4所 述对待定密文档进行密点标注的具体步骤为: 步骤4‑1, 读入需要 进行密点标注的文档; 步骤4‑2, 利用jieba分词工具将上述文档内容切分为单个的词语, 并且去除停用词, 分 为一系列词语集 合; 步骤4‑3: 将步骤4 ‑2生成的所有词语集合与密点词库进行比对, 在原文档中将所有 的 匹配词高亮标注, 并显示 其gv值作为置信度; 步骤4‑4: 根据步骤4 ‑3中标注出的匹配词语中的最高密级确定待标注文档的推荐密权 利 要 求 书 2/3 页 3 CN 115481429 A 3
专利 一种无监督的密点标注和辅助定密方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:34:41
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
T-CNZC 0008—2022 坛紫菜原藻数字化称重系统操作规程.pdf
法律法规 青海省行政机构设置和编制管理条例2004-05-29.pdf
GB-T 35273-2019 信息安全技术 个人信息安全规范.pdf
青藤云安全 关键信息基础设施云安全指南.pdf
GB-T 42195-2022 老年人能力评估规范.pdf
GB-T 41831-2022 项目管理专业人员能力评价要求.pdf
GB-T 37138-2018 电力信息系统安全等级保护实施指南.pdf
商用密码应用安全性测评机构管理办法(试行).pdf
北京金融产业联盟 金融行业云原生安全体系研究报告 2024.pdf
GB-T 28827.8-2022 信息技术服务 运行维护 第8部分:医院信息系统管理要求.pdf
GB-T 41350-2022 再制造 节能减排评价指标及计算方法.pdf
数据安全框架202308.pptx
GB-T 31052.1-2014 起重机械 检查与维护规程 第1部分:总则.pdf
GB-T 40985-2021 数字版权保护 版权资源标识与描述.pdf
GB-T 23981.2-2023 色漆和清漆 遮盖力的测定 第2部分:黑白格板法.pdf
GB-T 13910-2008 石英砂 粉 厂、滑石粉厂防尘技术规程.pdf
GB-T 30825-2014 热处理温度测量.pdf
DAMA数据管理知识体系指南(原书第2版).pdf
GB-T 25059-2010 信息安全技术 公钥基础设施 简易在线证书状态协议.pdf
GB-T 17876-2010 包装容器 塑料防盗瓶盖.pdf
1
/
14
评价文档
赞助2.5元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。