说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111281494.1 (22)申请日 2021.11.01 (71)申请人 江苏通付盾科技有限公司 地址 215000 江苏省苏州市工业园区东长 路88号苏州2. 5产业园C2栋4F (72)发明人 汪德嘉 刘春雨 张娟 谢佳岑  (51)Int.Cl. G06N 20/00(2019.01) G06F 16/182(2019.01) G06Q 10/06(2012.01) (54)发明名称 数据模型导出方法及数据建模平台 (57)摘要 本发明公开一种数据模型导出方法及数据 建模平台。 该方法包括数据上传、 数据预处理、 数 据拆分、 特征工程、 模型训练、 模型预测、 模型评 价、 模型参数优化、 模型可视化、 模型导出、 模型 推荐及模型应用; 在上传数据之后, 只需要通过 简单的拖拽就可以实现复杂的建模流程; 也可以 在没有任何交互的前提下推荐相对较优的模型; 算法广而全, 技术人员可以简单的对比各个算法 之间的效果, 从而选出最优模型; 最优模型可 以 以文件形式导出直接供其它平台使用, 从而更有 效的、 及时的应用; 本发明中提供了模型在线服 务, 技术人员直接调用API服务将待预测的源数 据作为输入, 输出就是待预测的结果, 具体的各 种数据预处 理、 特征工程均由API内部实现。 权利要求书2页 说明书7页 附图2页 CN 114139716 A 2022.03.04 CN 114139716 A 1.一种数据模型导出 方法, 其特 征在于, 包括: 接收上传的数据; 对所述数据进行 预处理; 将预处理后的数据拆分为训练集和预测集; 对训练集和预测集的数据进行 特征工程; 基于所述特 征工程后的训练集的数据训练数据模型; 根据所述数据模型, 对所述预测集以及特 征工程后的预测集进行 预测; 对所述数据模型在训练集和预测集上分别对各项评价指标进行评价; 针对所述数据模型在训练集和预测集上的各项评价指标, 优化数据模型中的各个参 数; 从多个维度对训练数据模型 过程中的算法进行 可视化; 将训练并且 优化后的数据模型导出为模型文件; 接收用户上传的数据后, 根据用户上传的数据, 自动给用户进行 数据模型推荐; 将所述模型文件发布至不同平台并提供API 服务。 2.如权利要求1所述的方法, 其特征在于, 所述上传的数据为本地文件、 HDFS文件或数 据库文件; 所述本地文件包括文本文件和压缩文件; 所述HDFS文件基于提供的HDFS路径上 传, 所述HDFS路径包含通配符以模糊匹配路径, 所述HDFS文件包括文本文件和压缩文件; 所 述数据库文件 包括关系型 数据库和非关系型 数据库。 3.如权利要求1所述的方法, 其特 征在于, 对所述数据进行 预处理包括: 对所述数据各字段值的有效性进行 校验; 对所述数据各字段缺失值进行处理, 在某字段缺失值的占比大于或等于预设阈值时, 直接剔除该字段; 在某字段缺 失值的占比小于预设阈值时, 采用均值、 众数、 特殊值、 或者机 器学习算法预测缺失值; 对所述数据各字段异常值进行处理, 采用统计分析或者箱型图分析方式, 判断各字段 是否存在异常值, 如果存在异常值, 则对异常值采用缺失值的处 理方式进行处 理。 4.如权利要求1所述的方法, 其特征在于, 将预处理后的数据拆分为训练集和预测集的 步骤中, 根据指定 字段按比例拆分、 按照指定的规则拆分或者按照时间顺序拆分。 5.如权利要求1所述的方法, 其特征在于, 对训练集和预测集的数据进行特征工程包 括: 对训练集和预测集的数据进行特征筛选, 剔除其中的冗余特征, 通过卡方检验、 F检验、 互信息、 包 装法、 潜入法中的一种或者多种选择重要的特 征字段; 对训练集和预测集的数据进行新增特征字段, 所述新增特征字段的方式包括特征归一 化、 枚举类特征离散化、 多个字段融合、 增加 二值化特征、 增加多个字段之间的多项式组合 特征以及通过模型新增组合特 征中的一种或者多种。 6.如权利要求1所述的方法, 其特征在于, 基于所述特征工程后的训练集的数据训练数 据模型的步骤中, 如果给定的训练集的数据带标签, 则选择分类算法或者集成学习算法训 练数据模型; 如果给定的训练集的数据没有标签, 则选择聚类算法训练数据模型; 如果当前的训练集的数据存在时间序列关系, 则选择深度学习算法训练数据模型。权 利 要 求 书 1/2 页 2 CN 114139716 A 27.如权利要求1所述的方法, 其特征在于, 对所述数据模型在训练集和预测集上分别对 各项评价指标进 行评价的步骤中, 所述评价指标包含: 准确率、 召回率、 F1值、 ROC曲线、 AUC、 混淆矩阵、 MAE、 MSE、 RMSE、 S SE、 R平方。 8.如权利要求1所述的方法, 其特征在于, 针对所述数据模型在训练集和预测集上的各 项评价指标, 优化数据模型中的各个参数的步骤中, 采用网格搜索的方式寻找最优参数值。 9.如权利要求1所述的方法, 其特征在于, 将训练并且优化后的数据模型导出为模型文 件的步骤中, 将训练并且 优化后的数据模型保存为PKL文件或者XML文件。 10.一种数据建模平台, 其特 征在于, 包括: 接收单元, 用于接收上传的数据; 预处理单元, 用于对所述数据进行 预处理; 拆分单元, 用于将预处 理后的数据拆分为训练集和预测集; 特征工程单 元, 用于对训练集和预测集的数据进行 特征工程; 训练单元, 用于基于所述特 征工程后的训练集的数据训练数据模型; 预测单元, 用于根据所述数据模型, 对所述预测集以及特 征工程后的预测集进行 预测; 评价单元, 用于对所述数据模型在训练集和预测集上分别对各项评价指标进行评价; 优化单元, 用于针对所述数据模型在训练集和预测集上的各项评价指标, 优化数据模 型中的各个参数; 可视化单 元, 用于从多个维度对训练数据模型 过程中的算法进行 可视化; 导出单元, 用于将训练并且 优化后的数据模型导出为模型文件; 推荐单元, 用于在接收用户上传的数据后, 根据用户上传的数据, 自动给用户进行数据 模型推荐; API服务单元, 用于将所述模型文件发布至不同平台并提供API 服务。权 利 要 求 书 2/2 页 3 CN 114139716 A 3

.PDF文档 专利 数据模型导出方法及数据建模平台

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据模型导出方法及数据建模平台 第 1 页 专利 数据模型导出方法及数据建模平台 第 2 页 专利 数据模型导出方法及数据建模平台 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:02:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。