说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210179810.2 (22)申请日 2022.02.25 (71)申请人 安阳师范学院 地址 455000 河南省安阳市开发区弦歌大 道436号 (72)发明人 杜丙新 汪向征 (74)专利代理 机构 深圳青年人专利商标代理有 限公司 4 4350 专利代理师 吴桂华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本标注推荐方法、 装置、 设备及存储 介质 (57)摘要 本发明适用计算机技术领域, 提供了一种文 本标注推荐方法、 装置、 设备及存储介质, 所述方 法包括: 获取待标注文本, 对待标注文本进行预 处理, 以得到词语集合, 基于词语集合通过预训 练模型获取表 示待标注文本的词语特征集, 根据 词语特征集, 获取表示待 标注文本每个句子的句 子特征, 利用预设的聚类算法对句子特征进行聚 类, 以生成各个类别对应的伪标签, 对各个类别 进行主题词挖掘, 为每个类别确定实际类别标签 和对应的主题词集合, 根据每个句子的实际类别 标签和对应的主题词集合生成待标注文本的标 注建议, 从而提高文本标注的准确性。 权利要求书2页 说明书7页 附图3页 CN 114661900 A 2022.06.24 CN 114661900 A 1.一种文本标注推荐方法, 其特 征在于, 所述方法包括: 获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 基于所述词语集合, 通过预训练模型获取表示所述待标注文本的词语特征集, 根据所 述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 利用预设的聚类算法对所述句子特 征进行聚类, 以生成各个 类别对应的伪标签; 对所述各个类别进行主题词挖掘, 为每个类别确定实际类别标签和对应的主题词集 合; 根据每个句子的实际类别标签和对应的主题词集 合生成所述待标注文本的标注建议。 2.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 包括: 接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修改和/或合并请 求, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及 对应的主 题词集合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 3.如权利要求2所述的文本标注推荐方法, 其特征在于, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及对应的主题词集合进 行合并的步骤之后, 还 包括: 将所述更新的实际类别标签和对应的主题词集合输入到所述预训练模型, 以使所述预 训练模型根据所述更新的实际类别标签和对应的主题词集合进行训练, 以更新所述预训练 模型。 4.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 还 包括: 将为每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别 ‑主题 词数据库中。 5.如权利要求4所述的文本标注推荐方法, 其特征在于, 根据每个句子的类别标签和对 应的主题词集 合生成所述待标注文本的标注建议的步骤之后, 包括: 根据标注员输入的标注结果对所述类别 ‑主题词数据库中相应类别标签和主题词集合 进行更新; 将所述类别 ‑主题词数据库中更新的类别标签和主题词集合输入到所述预训练模型, 以使所述预训练模型根据所述更新的类别标签和主题词集合进行训练, 以更新所述预训练 模型。 6.如权利要求1所述的文本标注推荐方法, 其特征在于, 所述预训练模型采取无监督学 习方式训练得到 。 7.一种文本标注推荐装置, 其特 征在于, 所述装置包括: 预处理单元, 用于获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 特征转换单元, 用于基于所述词语集合, 通过预训练模型获取表示所述待标注文本的 词语特征集, 根据所述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 聚类单元, 用于利用预设的聚类算法对所述句子特征进行聚类, 以生成各个类别对应权 利 要 求 书 1/2 页 2 CN 114661900 A 2的伪标签; 主题词挖掘单元, 用于对所述各个类别进行主题词挖掘, 为每个类别确定实 际类别标 签和对应的主题词集 合; 以及 标注建议生成单元, 用于根据每个句子的实际类别标签和对应的主题词集合生成所述 待标注文本的标注建议。 8.如权利要求7 所述的文本标注推荐装置, 其特 征在于, 还 包括: 优化单元, 用于接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修 改和/或合并请求, 对相应类别的实际类别标签进行修改、 和/或对相应类别的实际类别标 签以及对应的主题词集 合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 6任一项所述文本标注推荐方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至6任一项 所述文本标注推荐方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114661900 A 3
专利 一种文本标注推荐方法、装置、设备及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:26
上传分享
举报
下载
原文档
(656.5 KB)
分享
友情链接
GB-T 41870-2022 工业互联网平台 企业应用水平与绩效评价.pdf
GB-T 10233-2016 低压成套开关设备和电控设备基本试验方法.pdf
GB-T 29193-2023 国际贸易术语解释通则缩写代码.pdf
NB-T10382-2019 选煤用浮选复合药剂检测检验技术规范.pdf
奇安信 2022中国软件供应链安全分析报告.pdf
2023年Chau服务企业AIGC需求的大坑和大饼-v1.0-2024.pdf
ISO IEC 27001-2013 - 中英对照.pdf
DB5117-T 75—2023 磷石膏无害化处理技术规范 达州市.pdf
GB-T 38542-2020 信息安全技术 基于生物特征识别的移动智能终端身份鉴别技术框架.pdf
DB13-T 5217-2020 河道人工湿地设计规范 河北省.pdf
DB43-T 1956-2020 十字花科蔬菜黑斑病综合防治技术规程 湖南省.pdf
GB-T 6730.65-2009 铁矿石 全铁含量的测定 三氯化钛还原重铬酸钾滴定法 常规方法.pdf
GB-T 26049-2010 银包铜粉.pdf
安恒信息-GBT31168-2023 信息安全技术云计算服务安全能力要求 国家标准解读.pdf
GB-T 28455-2012 信息安全技术 引入可信第三方的实体鉴别及接入架构规范.pdf
GB-T 35101-2017 信息安全技术 智能卡读写机具安全技术要求(EAL4增强).pdf
GB-T 41986-2022 全钒液流电池 设计导则.pdf
GB-T 22163-2008 腧穴定位图.pdf
DB52-T 1636.5-2021 机关事务云 第5部分:机关运行成本管理数据 贵州省.pdf
GB-T 41817-2022 信息安全技术 个人信息安全工程指南.pdf
1
/
13
评价文档
赞助2.5元 点击下载(656.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。