说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111274356.0 (22)申请日 2021.10.2 9 (71)申请人 国泰君安证券股份有限公司 地址 200041 上海市 静安区南京西路768号 国泰君安大厦20层 (72)发明人 俞枫 王珣 苑博 孙中宇  黄志昌  (74)专利代理 机构 上海智信专利代理有限公司 31002 代理人 王洁 郑暄 (51)Int.Cl. G06Q 10/06(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于半监督学习实现企业评分和评级的系 统、 方法、 装置、 处 理器及其计算机可读存 储介质 (57)摘要 本发明涉及一种基于半监督学习实现企业 评分和评级的系统, 其中, 该系统包括系统包括 数据采集处理模块, 用于获取企业相关数据源; 数据预处理模块, 用于对采集到的各类数据进行 数据清洗和字段处理; 构造特征处理模块, 用于 根据不同数据之间的特征分类属性, 计算各个数 据的特征值; 模型训练处理模块, 用于分别使用 训练模型对全部数据进行分类; 以及评分评级计 算模块, 用于进行评分卡分数的计算, 并根据多 维度累加得到的总分数获取最终的评级等级。 本 发明还涉及一种相应的方法、 装置、 处理器及其 计算机可读存储介质。 采用了本发明的该系统、 方法、 装置、 处理器及其计算机可读存储介质, 充 分利用多类别数据源的数据价值, 提供一种客观 统一的评价体系。 权利要求书3页 说明书9页 附图1页 CN 113988644 A 2022.01.28 CN 113988644 A 1.一种基于半监 督学习实现企业评分和评级的系统, 其特 征在于, 所述的系统包括: 数据采集处理模块, 用于获取企业内部数据源以及外部数据源, 以实现对企业信用风 险的对维度评估; 数据预处理模块, 与所述的数据采集处理模块相连接, 用于对采集到的各类数据进行 数据清洗以及字段处 理; 构造特征处理模块, 与所述的数据预处理模块相连接, 用于根据不同数据之间的特征 分类属性, 计算各个数据的特征值, 并将各个特征值进行分箱处理, 以进行重要特征的筛 选; 模型训练处理模块, 与所述的构造特征处理模块相连接, 用于分别使用逻辑回归模型 和随机森林模型对 全部数据进行分类, 并根据训练结果输出 各个特征数据的权 重比; 以及 评分评级计算模块, 与所述的模型训练处理模块相连接, 用于根据不同数据源之间的 类型, 切分为不同维度, 并对各个维度涉及到的所有 数据源的模型训练输出结果, 进 行评分 卡分数的计算, 并根据多维度累加得到的总分数获取最终的评级等级。 2.一种利用权利要求1所述的系统实现基于半监督学习进行企业评分和评级的方法, 其特征在于, 所述的方法包括以下步骤: (1)进行企业内部数据源以及外 部数据源的数据采集; (2)对采集的数据进行 数据清洗以及字段处 理; (3)根据各个数据的不同的特 征属性计算相应的特 征值, 以进行重要特 征的筛选; (4)对采集到的数据进行模型训练, 获取相应特 征数据的权 重比和重要性; (5)根据各个数据的类型进行不同维度的切分, 并按照模型训练的结果进行评分卡分 数的转化, 以实现对企业评分和评级。 3.根据权利要求2所述的实现基于半监督学习进行企业评分和评级的方法, 其特征在 于, 所述的步骤(1)具体为: 获取包含工商信息类数据、 经营状况类数据、 裁判文书网数据、 财务信息类数据、 舆情 信息类数据、 企业评级数据、 信用星 级相关数据以及ESG外 部数据源数据; 其中, 所述的ESG外 部数据源数据具体指包 含环境、 社会以及治理方面的数据。 4.根据权利要求2所述的实现基于半监督学习进行企业评分和评级的方法, 其特征在 于, 所述的步骤(2)具体包括以下步骤: (2.1)对采集到的数据进行包括但不限于去除多余空格、 无效字符的清洗处 理; (2.2)对采集到的数据的原始字段进行映射转换, 以及对采集到的数据的字符类型进 行转换; (2.3)针对所有数据进行统一日期、 金额和货币的格式处 理。 5.根据权利要求4所述的实现基于半监督学习进行企业评分和评级的方法, 其特征在 于, 所述的步骤(3)具体包括以下步骤: (3.1)对进行数据预处理后的数据按照基本特征、 统计型特征以及时序型特征的属性 进行分类; (3.2)进入分箱初始化处理阶段, 对分类处理后的各个特征按照离散型向连续型转换 的处理规则进行属性 值大小的排序; (3.3)对每一组相邻的数据进行计算 卡方值的处 理;权 利 要 求 书 1/3 页 2 CN 113988644 A 2(3.4)根据计算出的卡方值, 将其中计算出的卡方值最小的一组数据进行临近组合, 合 并为一组; (3.5)重复上述步骤(3.3)至(3.4), 直到所有卡方值都不低于设定阈值或者分组达到 预期数量; (3.6)根据计算出的每一个卡方值计算对应的证据权重WOE以及信息价值IV, 以实现重 要特征的筛选。 6.根据权利要求5所述的实现基于半监督学习进行企业评分和评级的方法, 其特征在 于, 所述的步骤(3.3)具体按照以下公式计算所述的卡方值: 其中, Eij=Ri×Cj/N, Aij为i区间中j类样本个数, 为i区间中样本数, 为j类样本的个数, 为总样本个数。 7.根据权利要求5所述的实现基于半监督学习进行企业评分和评级的方法, 其特征在 于, 所述的步骤(3.6)具体按照以下公式计算所述的证据权 重WOE以及信息价 值IV: 其中, B为正样本总数, Bi为i区间对应的正样本数; G为负样本总数, Gi为i区间对应的负 样本数; 8.根据权利要求7所述的实现基于半监督学习进行企业评分和评级的方法, 其特征在 于, 所述的步骤(4)具体包括以下步骤: (4.1)将采集到的所有数据按照预设数量进行分组, 选取其中一组作为测试集, 其他组 作为训练集进行分轮训练; (4.2)分别使用逻辑回归模型和随机森林模型对训练后的数据进行分类, 以输出各个 特征数据的权 重和重要性。 9.根据权利要求8所述的实现基于半监督学习进行企业评分和评级的方法, 其特征在 于, 所述的步骤(4.2)具体包括: 当特征向量维数高, 且训练样本数大时, 采用所述的逻辑回归模型即可输出相应特征 的权重; 当需要输出 特征的重要性时采用所述的逻辑回归 模型即可训练完成。 10.根据权利要求9所述的实现基于半监督学习 进行企业评分和评级的方法, 其特征在 于, 所述的步骤(5)具体包括以下步骤: (5.1)根据各个数据的类型进行不同维度的切分, 并根据模型训练的输出结果进行相 应数据评分卡分数的计算, 获取多维度的总分数; (5.2)根据获取到的所有的总分数的区间分布情况, 通过制定对应的评级等级的阈值, 调整实际的分布情况来获得最终的评级等级; (5.3)根据实际情况适当加入人工调整, 以计算出 所需的特 征及其相应的权 重值。权 利 要 求 书 2/3 页 3 CN 113988644 A 3

.PDF文档 专利 基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质 第 1 页 专利 基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质 第 2 页 专利 基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:01:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。