说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111658268.0 (22)申请日 2021.12.3 0 (71)申请人 医渡云 (北京) 技 术有限公司 地址 100191 北京市海淀区花园北路3 5号9 号楼8层801 (72)发明人 崔梦璇 王尧  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 代理人 王辉 阚梓瑄 (51)Int.Cl. G06F 16/906(2019.01) G06K 9/62(2022.01) G06N 5/00(2006.01) G06N 20/00(2019.01) G16H 50/70(2018.01) (54)发明名称 特征的离散化方法、 装置、 电子设备及计算 机可读介质 (57)摘要 本公开涉及一种特征的离散化方法、 装置、 电子设备及计算机可读介质, 属于数据处理技术 领域。 该方法包括: 获取多个采集时刻下的样本 数据, 每个采集时刻下的样本数据包括各个样本 的目标特征对应的特征值; 获取从初始时刻到目 标时刻的样 本数据; 根据初始时刻到目标时刻的 样本数据和各个样本的样本类型, 确定目标特征 在目标时刻对应的至少一个初始切分点; 根据预 设长度的时间窗口对初始切分点进行平滑处理, 得到目标特征在目标时刻对应的目标切分点; 根 据目标切分点对目标时刻 的目标特征进行离散 化处理。 本公开通过对 连续型特征建立不同时刻 对应的动态切分点, 可以更加准确地表达特征在 不同时刻的动态意 义, 提升后续建模效果。 权利要求书2页 说明书12页 附图3页 CN 114297454 A 2022.04.08 CN 114297454 A 1.一种特 征的离散化方法, 其特 征在于, 包括: 获取在多个采集 时刻下的样本数据, 每个所述采集 时刻下的样本数据包括在所述采集 时刻采集到的各个样本的目标特征对应的特征值, 其中, 所述样本的样本类型包括正样本 和负样本; 分别将各个所述采集 时刻确定为目标时刻, 并获取从初始时刻到所述目标时刻的样本 数据; 根据所述初始时刻到所述目标时刻的样本数据和各个所述样本的样本类型, 确定所述 目标特征在所述目标时刻对应的至少一个初始切分点; 根据预设长度的时间窗口对所述初始切分点进行平滑 处理, 得到所述目标特征在所述 目标时刻对应的目标切分点; 根据所述目标切分点对所述目标时刻的所述目标 特征进行离 散化处理。 2.根据权利要求1所述的特征的离散化方法, 其特征在于, 所述根据所述初始时刻到所 述目标时刻的样本数据和各个所述样本的样本类型, 确定所述目标特征在所述目标时刻 对 应的至少一个初始切分点, 包括: 获取预设的离散化组数, 并根据所述离散化组数确定所述目标特征对应的初始切分点 的目标切分点数量; 将所述初始时刻到所述目标时刻的样本数据中的多个特征值进行排序后, 根据 所述目 标切分点数量以及所述样本的样本类型对所述目标特征进 行分组, 得到所述目标特征在所 述目标时刻对应的至少一个初始切分点。 3.根据权利要求2所述的特征的离散化方法, 其特征在于, 所述根据所述目标切分点数 量以及所述样本的样本类型对所述目标特征进 行分组, 得到所述目标特征在所述目标时刻 对应的至少一个初始切分点, 包括: 依次将所述目标特征的每个特征值作为候选切分点对所述目标特征进行分组, 得到各 个所述候选切分点对应的候选初始离 散化组别; 根据各个所述候选切分点对应的候选初始离散化组别中所述样本的样本类型, 得到各 个所述候选切分点对应的样本分离 评价指标; 根据各个所述候选切分点对应的样本分离评价指标, 从各个所述候选切分点中确定出 一个初始切分点; 根据所述初始切分点对对所述目标特征进行分组, 得到所述目标特征的初始离散化组 别, 并根据各个所述初始离 散化组别中的样本数量确定出一个再分割离 散化组别; 将所述再分割离散化组别中的每个特征值依次作为所述候选切分点, 并从所述候选切 分点中再确定出一个初始切分点, 直到所述初始切分点的数量达到所述目标切分点数量为 止。 4.根据权利要求3所述的特 征的离散化方法, 其特 征在于, 所述方法还 包括: 在对所述目标特征进行分组时, 若所述目标特征的任意一个初始离散化组别中的样本 数量小于分组样本数量阈值, 则将所述目标特征在所述目标时刻 对应的初始切分点设置为 空值。 5.根据权利要求2所述的特 征的离散化方法, 其特 征在于, 所述方法还 包括: 若从所述初始时刻到所述目标时刻的各个样本的样本类型仅包含所述正样本或者所权 利 要 求 书 1/2 页 2 CN 114297454 A 2述负样本, 则将所述目标 特征在所述目标时刻对应的初始切分点设置为空值。 6.根据权利要求1所述的特征的离散化方法, 其特征在于, 所述根据预设长度的时间窗 口对所述初始切分点进行平滑处理, 得到所述目标特征在所述目标时刻对应的目标切分 点, 包括: 根据预设长度的时间窗口获取与所述目标时刻相邻的多个其他目标时刻对应的初始 切分点; 根据所述目标时刻对应的初始切分点以及与所述目标时刻相邻的多个其他目标时刻 对应的初始切分点, 得到所述目标 特征在所述目标时刻对应的目标切分点。 7.根据权利要求6所述的特征的离散化方法, 其特征在于, 所述根据所述目标时刻对应 的初始切分点以及与所述目标时刻相 邻的多个其他目标时刻 对应的初始切分点, 得到所述 目标特征在所述目标时刻对应的目标切分点, 包括: 将所述目标时刻对应的初始切分点以及与所述目标时刻相邻的多个其他目标时刻对 应的初始切分点的均值, 作为所述目标 特征在所述目标时刻对应的目标切分点。 8.一种特 征的离散化装置, 其特 征在于, 包括: 样本数据获取模块, 用于获取在多个采集时刻下的样本数据, 每个所述采集时刻下的 样本数据包括在所述采集时刻采集到的各个样本的目标特征对应的特征值, 其中, 所述样 本的样本类型包括 正样本和负 样本; 目标时刻数据获取模块, 用于分别将各个所述采集时刻确定为目标时刻, 并获取从初 始时刻到所述目标时刻的样本数据; 初始切分点确定模块, 用于根据所述初始时刻到所述目标时刻的样本数据和各个所述 样本的样本类型, 确定所述目标 特征在所述目标时刻对应的至少一个初始切分点; 目标切分点确定模块, 用于根据预设长度的时间窗口对所述初始切分点进行平滑处 理, 得到所述目标 特征在所述目标时刻对应的目标切分点; 特征离散化处理模块, 用于根据所述目标切分点对所述目标时刻的所述目标特征进行 离散化处理。 9.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存储一个或多个程序, 当所述一个或多个程序被所述处理器执行时, 使得 所述处理器实现如权利要求1至7中任一项所述的特 征的离散化方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执 行时实现如权利要求1至7中任一项所述的特 征的离散化方法。权 利 要 求 书 2/2 页 3 CN 114297454 A 3

.PDF文档 专利 特征的离散化方法、装置、电子设备及计算机可读介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 特征的离散化方法、装置、电子设备及计算机可读介质 第 1 页 专利 特征的离散化方法、装置、电子设备及计算机可读介质 第 2 页 专利 特征的离散化方法、装置、电子设备及计算机可读介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:31:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。