说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111647606.0 (22)申请日 2021.12.3 0 (71)申请人 北京瑞莱智慧科技有限公司 地址 100084 北京市海淀区中关村东路1号 院8号楼19层A1901 (72)发明人 不公告发明人   (74)专利代理 机构 北京箴思知识产权代理有限 公司 11913 代理人 李春晖 谭艳 (51)Int.Cl. G06F 16/906(2019.01) G06N 20/00(2019.01) H04L 9/00(2022.01) H04L 9/14(2006.01) (54)发明名称 特征分箱方法、 装置及存 储介质 (57)摘要 本申请涉及数据处理领域, 提供了一种特征 分箱方法、 装置及存储介质。 该方法包括: 获取待 分箱样本集的非数值特征集合; 根据每个非数值 特征的特征值对相应非数值特征进行编码, 得到 与每一非数值特征分别对应的各个特征进行编 码; 基于全部所述特征编码, 确定所述待分箱样 本集的候选分箱方式; 获取每一候选分箱方式的 各个分箱的证据权重; 根据所述证据权重, 从所 述候选分箱方式中确定至少一个分箱方式; 按照 所述至少一个 分箱方式, 对所述待分箱样本集分 别进行分箱。 本申请通过根据特征值对非数值特 征进行编码, 然后再根据特征编码确定分箱方 式, 使各种非数值特征都能参与分箱过程; 且得 到特征编码的数据量小, 计算资源消耗低, 不影 响后续处 理效率。 权利要求书2页 说明书14页 附图8页 CN 114329127 A 2022.04.12 CN 114329127 A 1.一种特 征分箱方法, 包括: 获取待分箱样本集的非数值特征集合, 所述非数值特征集合包括至少一个特征类别的 全部待分箱样本的非数值特 征; 根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码, 得到与每一非 数值特征分别对应的各个特 征编码; 基于全部特 征编码, 确定所述待分箱样本集的候选分箱方式; 获取每一 候选分箱方式的各个分箱的证据权 重; 根据所述证据权 重, 从所述 候选分箱方式 中确定至少一个分箱方式; 按照所述至少一个分箱方式, 对所述待分箱样本集分别进行分箱。 2.如权利要求1所述的特征分箱方法, 其中, 根据每个非数值特征的特征类别及特征值 对相应非数值特 征进行编码, 得到与每一非数值特 征对应的各个特 征编码, 包括: 获取每一待编码的非数值特征的特征类别和特征值以及非数值特征集合中全部非数 值特征的特征值总数量; 根据所述特征值总数量以及每一待编码的非数值特征的特征类别和特征值, 确定每一 非数值特征的特征编 码, 其中, 具有相同特征类别和特征值的非数值特征的特征编码相同, 具有相同特征类别、 不同特征值的非数值特征的特征编 码不同, 具有不同特征类别、 相同特 征值的非数值特 征的特征编码不同。 3.如权利要求2所述的特征分箱方法, 其中, 根据 所述特征值总数量以及每一待编码的 非数值特 征的特征类别和特 征值, 确定每一非数值特 征的特征编码, 包括: 将各个非数值特 征转换为预设数据类型, 得到对应的各个 格式化特 征数据; 对各个格式化特 征数据进行排序; 对排序后的各个格式化特征数据, 根据所述特征值总数量以及每一格式化特征数据的 特征类别和特 征值, 依次确定每一待编码的格式化特 征数据的特 征编码。 4.如权利要求3所述的特征分箱方法, 其中, 对排序后的各个格式化特征数据, 根据所 述特征值总数量以及每一格式化特征数据的特征类别和特征值, 依次确定每一待编 码的格 式化特征数据的特 征编码, 包括: 若当前待编码的格式化特征数据的特征类别以及对应的特征值已被记录, 则根据历史 记录对所述当前待编码的格式化特征数据进 行编码, 得到所述当前待编码的格式化特征数 据的特征编码; 若当前待编码的格式化特征数据的特征类别未被记录, 则获取历史记录 中特征编码值 最大的一个, 将获取到的所述特征编码值进行预设计算, 得到所述当前待编码的格式化特 征数据的特 征编码; 若当前待编码的格式化特征数据的特征类别已被记录且对应的特征值未被记录, 则获 取历史记录中特征编码值最大 的一个, 将获取到的所述特征编码值进行预设计算, 得到所 述当前待编码的格式化特 征数据的特 征编码。 5.如权利要求1所述的特征分箱方法, 应用于第一终端, 所述第一终端与第二终端通 信, 其中, 获取每一 候选分箱方式的各个分箱的证据权 重之前, 所述方法还 包括: 接收第二终端发送的同态加密后的多个标签密文, 每一标签密文用于表示对应的待分 箱样本为 正样本或负 样本;权 利 要 求 书 1/2 页 2 CN 114329127 A 2根据所述多个标签密文, 统计所述待分箱样本集分别按照各个候选分箱方式分箱后的 各个分箱中的正负 样本数量, 得到统计结果; 将所述统计结果加密后, 发送至第二终端, 以便所述第二终端计算各个分箱 的证据权 重; 接收所述第二终端发送的证据权重符合预设阈值的候选分箱方式以及对应的各个分 箱的证据权 重。 6.如权利要求5所述的特征分箱方法, 其中, 所述统计结果为密文数据, 所述第一终端 无法直接基于所述统计结果确定各个分箱中的正负样本数量以及各个样本为正样本或负 样本。 7.如权利要求1所述的特征分箱方法, 其中, 按照所述至少一个分箱方式, 对所述待分 箱样本集分别进行分箱之后, 所述方法还 包括: 接收再次分箱指令, 所述再次分箱指令包括至少一个分箱点, 所述分箱点用于表示待 分箱样本集的分箱 依据特征值; 根据所述再次分箱指令, 对所述非数值特征集合重新进行编码, 得到各个非数值特征 更新后的特 征编码; 根据更新后的特 征编码, 对所述待分箱样本集重新分箱。 8.一种特 征分箱装置, 包括: 输入输出模块, 被配置为获取待分箱样本集的非数值特征集合, 所述非数值特征集合 包括至少一个特 征类别的全部待分箱样本的非数值特 征; 处理模块, 被配置为根据各个非数值特征的特征类别及特征值对相应非数值特征进行 编码, 得到与每一 非数值特征分别对应的各个特征编码; 以及基于全部所述特征编码, 确定 所述待分箱样本集的候选分箱方式; 所述输入输出模块, 还被 配置为获取每一 候选分箱方式的各个分箱的证据权 重; 所述处理模块, 还被配置为根据所述证据权重, 从所述候选分箱方式中确定至少一个 分箱方式; 以及按照所述至少一个分箱方式, 对所述待分箱样本集分别进行分箱。 9.一种计算机可读存储介质, 其包括指令, 当其在计算机上运行时, 使得计算机执行如 权利要求1 ‑7中任一项所述的方法。 10.一种计算设备, 包括存储器, 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其中, 所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方 法。权 利 要 求 书 2/2 页 3 CN 114329127 A 3

.PDF文档 专利 特征分箱方法、装置及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 特征分箱方法、装置及存储介质 第 1 页 专利 特征分箱方法、装置及存储介质 第 2 页 专利 特征分箱方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:31:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。