说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210169875.9 (22)申请日 2022.02.24 (71)申请人 西南交通大 学 地址 610031 四川省成 都市二环路北一段 111号 (72)发明人 滕飞 周晓敏 张恩铭 马征 黄路非 李暄 (74)专利代理 机构 北京集智东方知识产权代理 有限公司 1 1578 专利代理师 刘林 陈攀 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01)G06F 40/284(2020.01) G06F 40/211(2020.01) (54)发明名称 一种医疗文本编码方法、 装置、 设备及可读 存储介质 (57)摘要 本发明提供了一种医疗文本编码方法、 装 置、 设备及可读存储介质, 所述方法包括: 获取第 一文档集合; 基于临床文档, 利用词嵌入技术生 成词嵌入矩阵; 基于临床文档、 词嵌入矩阵和卷 积神经网络得到上层序列向量; 基于上层序列向 量和词嵌入矩 阵得到每个临床文档所对应的句 子向量; 基于每个临床文档所对应的句子向量得 到初步的分类器; 基于第一文档集合和临床文档 所对应的句子向量得到最终的分类器, 使用最终 的分类器对临床文档进行ICD编码。 本发明关注 了罕见疾病编码, 提高了编码员对罕见病的重 视。 并且本发明能够自动抽取特征, 不依赖手工 特征, 对不同医生的书写风格进行了缓和, 可 以 减少研究时间和减少匹配错 误。 权利要求书2页 说明书10页 附图3页 CN 114528944 A 2022.05.24 CN 114528944 A 1.一种医疗文本编码方法, 其特 征在于, 包括: 获取第一文档集 合, 所述第一文档集 合中包括至少一条临床文档; 基于所述临床文档, 利用词嵌入技 术生成词嵌入矩阵; 基于所述临床文档、 所述词嵌入矩阵和卷积神经网络得到上层序列向量; 基于所述上层序列向量和所述词嵌入矩阵得到每 个所述临床文档所对应的句子向量; 基于每个所述临床文档所对应的句子向量得到初步的分类器, 所述初步的分类器 中包 括分类器权重; 基于所述第 一文档集合和所述临床文档所对应的句子向量得到新的分类器权重, 用新 的分类器权重替换所述分类器权重, 得到最终的分类器, 使用所述最终的分类器对临床文 档进行ICD编码。 2.根据权利要求1所述的医疗文本编码方法, 其特征在于, 基于所述临床文档, 利用词 嵌入技术生成词嵌入矩阵, 包括: 获取词嵌入维度d和预设词, d为介于10 0‑300的正整数; 提取所述临床文档中的所有词并去重, 得到第一词表; 用所述预设词代替所有未在所述第一词表中出现的词, 得到第二词表; 对所述第二词表中的每一个词随机初始化d维向量, 得到所述词嵌入矩阵。 3.根据权利要求1所述的医疗文本编码方法, 其特征在于, 基于所述临床文档、 所述词 嵌入矩阵和卷积神经网络得到上层序列向量, 包括: 将所述临床文档中的每个词转换成一个低维向量, 得到输入特征矩阵, 其中, 将所述临 床文档中的每 个词的向量由所述词嵌入矩阵中对应词的向量 来进行表示; 在卷积神经网络中设置词嵌入维度、 滤波器宽度和滤波器输出 大小; 利用设置好的卷积神经网络学习所述输入特征矩阵的语义信 息, 得到所述上层序列向 量。 4.根据权利要求1所述的医疗文本编码方法, 其特征在于, 基于所述上层序列向量和所 述词嵌入矩阵得到每 个所述临床文档所对应的句子向量, 包括: 获取每个ICD编码描述; 将所述ICD编码描述中所有词小 写并删除停止词, 得到删除后的ICD编码描述; 在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量, 查 找后进行平均计算, 得到每 个ICD编码描述所对应的ICD编码描述向量; 将所述上层序列向量和全部的所述ICD编码描述向量共 同经过标签注意力机制, 得到 每个所述临床文档所对应的句子向量, 所述句子向量中包 含每种ICD编码的特 征表示。 5.一种医疗文本编码装置, 其特 征在于, 包括: 获取模块, 用于获取第一文档集 合, 所述第一文档集 合中包括至少一条临床文档; 第一计算模块, 用于基于所述临床文档, 利用词嵌入技 术生成词嵌入矩阵; 第二计算模块, 用于基于所述临床文档、 所述词嵌入矩阵和卷积神经网络得到上层序 列向量; 第三计算模块, 用于基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档 所对应的句子向量; 第四计算模块, 用于基于每个所述临床文档所对应的句子向量得到初步的分类器, 所权 利 要 求 书 1/2 页 2 CN 114528944 A 2述初步的分类 器中包括分类 器权重; 替换模块, 用于基于所述第 一文档集合和所述临床文档所对应的句子向量得到新的分 类器权重, 用新的分类器权重替换所述分类器权重, 得到最 终的分类器, 使用所述最 终的分 类器对临床文档进行ICD编码。 6.根据权利要求5所述的医疗文本编码装置, 其特 征在于, 第一计算模块, 包括: 第一获取 单元, 用于获取词嵌入维度d和预设词, d为介于10 0‑300的正整数; 提取单元, 用于提取 所述临床文档中的所有词并去重, 得到第一词表; 代替单元, 用于用所述预设词代替所有未在所述第一词表中出现的词, 得到第二词表; 初始化单元, 用于对所述第 二词表中的每一个词随机初始化d维向量, 得到所述词嵌入 矩阵。 7.根据权利要求5所述的医疗文本编码装置, 其特 征在于, 第二计算模块, 包括: 转化单元, 用于将所述临床文档中的每个词转换成一个低维向量, 得到输入特征矩阵, 其中, 将所述临床文档中的每 个词的向量由所述词嵌入矩阵中对应词的向量 来进行表示; 设置单元, 用于在卷积神经网络中设置词嵌入维度、 滤波器宽度和滤波器输出 大小; 学习单元, 用于利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息, 得到 所述上层序列向量。 8.根据权利要求5所述的医疗文本编码装置, 其特 征在于, 第三计算模块, 包括: 第二获取 单元, 用于获取每 个ICD编码描述; 删除单元, 用于将所述ICD编码描述中所有词小写并删除停止词, 得到删除后的ICD编 码描述; 第一计算单元, 用于在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对 应的词嵌入向量, 查找后进行平均计算, 得到每 个ICD编码描述所对应的ICD编码描述向量; 第二计算单元, 用于将所述上层序列向量和全部的所述ICD编码描述向量共 同经过标 签注意力机制, 得到每个所述临床文档所对应的句子向量, 所述句子向量中包含每种ICD编 码的特征表示。 9.一种医疗文本编码设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至4任一项所述医疗文本编码方 法的步骤。 10.一种可读存储介质, 其特征在于: 所述可读存储介质上存储有计算机程序, 所述计 算机程序被处 理器执行时实现如权利要求1至4任一项所述医疗文本编码方法的步骤。权 利 要 求 书 2/2 页 3 CN 114528944 A 3
专利 一种医疗文本编码方法、装置、设备及可读存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:27
上传分享
举报
下载
原文档
(710.9 KB)
分享
友情链接
GB-T 30278-2013 信息安全技术 政务计算机终端核心配置规范.pdf
GB 50016-2012 建筑设计防火规范.pdf
GB-T 3190-2020 变形铝及铝合金化学成分.pdf
GB-T 2847-2005 用于水泥中的火山灰质混合材料.pdf
GM-T 0085-2020 基于SM9标识密码算法的技术体系框架.pdf
GB-T 20021-2017 帆布芯耐热输送带.pdf
XF 1203-2014 气体灭火系统灭火剂充装规定.pdf
GB-T 43541-2023 智能制造 网络协同制造 业务架构与信息模型.pdf
蚂蚁集团王维强:大模型安全的探索与实践分享-大模型安全的“快”与“慢”.pdf
GB-T 36047-2018 电力信息系统安全检查规范.pdf
GB-T 7920.15-2003 沥青储存、熔化和加热装置 术语.pdf
IDC 2022中国大模型发展白皮书 中国人工智能系列白皮书.pdf
DB31-T 616-2023 泵系统节能改造技术规范 上海市.pdf
GB-T 41637-2022 发制品 通用技术规范.pdf
GB-T 34520.5-2017 连续碳化硅纤维测试方法 第5部分:单纤维拉伸性能.pdf
GB-T 35276-2017 信息安全技术 SM2密码算法使用规范.pdf
GB-T51431-2020 5-移动通信基站工程技术标准 GBT 51431-2020.pdf
T-CSTM 00839—2022 材料基因工程 术语.pdf
T-CI 292—2024 医疗健康大数据安全要求.pdf
SN-T 3953-2014 国境口岸轮状病毒(A组)、诺如病毒、星状病毒的多重RT-PCR检测方法.pdf
1
/
16
评价文档
赞助2.5元 点击下载(710.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。