说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111272943.6 (22)申请日 2021.10.2 9 (71)申请人 杭州翔毅科技有限公司 地址 310000 浙江省杭州市萧 山区萧山经 济技术开发区启迪路198号C -712室 (72)发明人 陈子轩 雷铭轩 郑正 华国明  李禅 郭尚  (74)专利代理 机构 北京精翰专利代理有限公司 11921 代理人 王东伟 (51)Int.Cl. G06N 20/00(2019.01) G06N 5/02(2006.01) (54)发明名称 可泛化的领域知识学习与计算引擎系统及 方法 (57)摘要 本发明提供可泛化的领域知识学习与计算 引擎系统及方法, 涉及人工智 能技术领域。 该可 泛化的领域知识学习 与计算引擎系统, 包括数据 准备模块、 学习集模块和模型输出模块: 所述数 据准备模块用于多源的数据采集, 收集到尽可能 多的数据维度, 同时保证数据的质量, 得到高质 量的数据挖掘结果, 所述学习集模块用于代替人 工完成传统的特征工程、 模型选择、 超参数调优、 模型评估, 让计算机独立完成更复杂的任务, 所 述模型输出模块用于对学习集模块的数据进行 统计分类, 并根据模型特征输出结果。 通过数据 准备模块、 学习集模块和模型输出模块, 构建一 个自动化的过程, 减少时间和人力等资源的浪 费。 权利要求书2页 说明书5页 附图4页 CN 113919509 A 2022.01.11 CN 113919509 A 1.可泛化的领域知识学习与计算引 擎系统, 包括数据准备模块、 学习集模块和模型输 出模块, 其特 征在于: 所述数据准备模块用于多源的数据采集, 收集到尽可能多的数据维度, 同时保证数据 的质量, 得到高质量的数据 挖掘结果; 所述学习集模块用于代替人工完成传统的特征工程、 模型选择、 超参数调优、 模型评 估, 让计算机独立完成更复杂的任务; 所述模型输出模块用于对学习集模块的数据进行统计分类, 并根据模型特征输出结 果。 2.根据权利要求1所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述数 据准备模块包括自动化数据收集模块和数据 清洗模块, 所述自动化数据收集模块包括以下 方式: S1.传感器采集: 通过温湿度传感器、 气体传感器、 视频传感器等外部硬件设备与系统 进行通信, 将传感器监测到的数据传至系统中进行采集使用; S2.爬虫抓取: 使用requests爬取内容, 使用Xp ath解析内容, 使用pandas保存数据, 通 过编写网络 爬虫, 设置好数据源后进行有目标性的自动爬取 数据; S3.底层数据交换: 通过获取软件系统的底层数据交换、 软件客户端和数据库之间的网 络流量包, 基于底层IO请求与网络 分析等技术, 采集目标软件产生的所有 数据, 将数据转换 与重新结构化, 输出到新的数据库, 供 软件系统调用。 3.根据权利要求2所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述数 据清洗模块的清洗步骤为: ①去除或补全缺失的数据, ②去除或修改格式和内容错误的数 据,③去除修改逻辑 错误数据,④去除不需要的数据, ⑤关联性验证。 4.根据权利要求1所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述学 习集模块包括有自动特征工程模块、 自动模型选择模块、 自动参数调整模块、 自动管道匹配 模块和算法框架模块, 所述 算法框架模块包括元 学习阶段、 强化学习阶段和集成学习阶段。 5.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述元 学习阶段包括以下运行步骤: S1.收集数据集并提取 出数据集的统计特 征以及Landmark特 征; S2.运行自动化机器学习算法得到这些 数据集的运行信息; S3.当处理新的数据集时, 基于元特征查找与新数据集最为相似的数据集并以该数据 集的运行信息来初始化强化学习阶段, 从而实现强化学习阶段的预热, 加速强化学习阶段 的收敛过程。 6.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述强 化学习阶段包括以下运行步骤: S1.将一个完整的机器学习流水线视为一个分为数据预处理算法、 特征工程算法, 分类 算法三组; S2.在预设的给定计算时间内, 重复以下两个步骤: ①.根据Q‑table选择一个属于当前状态的方法, 然后进入下一个 状态; ②.当从一个 状态切换到另一状态时, 根据Q ‑learning算法更新 Q‑table的参数。 7.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述集权 利 要 求 书 1/2 页 2 CN 113919509 A 2成学习阶段包括以下运行步骤: S1.对在验证集上表现良好的模型使用交叉验证得到训练集以及测试集的预测作为新 的训练集和 测试集的特 征; S2.使用新的训练集训练一个逻辑回归的高层分类器, 然后根据高层分类器预测新的 测试集来得到最终的预测结果。 8.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述自 动模型选择模块的运行逻辑为将候选模型作为选择基础, 并且为每个模型构建贝叶斯模 型, 每一轮候选模型验证过程中, 根据贝叶斯超参数优化结果选择超参数。 9.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统, 其特征在于: 所述自 动特征工程模块包括以下运行步骤: S1.自动化特征编码, 所述自动化特征编码包括category特征编码、 时间特征编码和多 值特征编码; S2.自动化特征组合, 所述自动化特征组合包括cat ‑cat特征组合和cat ‑numeric特征 组合; S3.自动化特 征选择, 所述自动特 征选择为过 滤式特征选择。 10.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统的方法, 其特征在 于: 首先通过数据准备模块收集到尽可能多的数据维度, 同时保证数据的质量, 得到高质量 的数据挖掘结果, 为学习集模块提供数据基础, 再通过学习集模块中的算法框架模块实现 自动工程特征、 模型选择、 参数调整和管道匹配, 其中算法框架模块包括元学习阶段、 强化 学习阶段和集成学习阶段, 元学习阶段用于 收集多个数据集进行预训练, 实现强化学习阶 段实现热启动, 强化学习阶段用于将机器学习流水线自动化设计抽象成强化学习问题, 并 利用强化学习Q ‑learning算法选择最优的机器学习流水线, 集 成学习阶段用于对多个性能 较好的机器学习流水线进行集成, 提升算法鲁棒性, 最后通过模型输出模块对学习集模块 的数据进行统计分类, 并根据模型 特征输出结果。权 利 要 求 书 2/2 页 3 CN 113919509 A 3

.PDF文档 专利 可泛化的领域知识学习与计算引擎系统及方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 可泛化的领域知识学习与计算引擎系统及方法 第 1 页 专利 可泛化的领域知识学习与计算引擎系统及方法 第 2 页 专利 可泛化的领域知识学习与计算引擎系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:01:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。