说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111659861.7 (22)申请日 2021.12.3 0 (71)申请人 深圳市和讯华谷信息技 术有限公司 地址 518000 广东省深圳市南 山区粤海街 道高新区社区科技南十二路006号中 检大厦14层 (72)发明人 李博 罗伟东 陈辞  (74)专利代理 机构 北京酷爱智慧知识产权代理 有限公司 1 1514 专利代理师 卢蓉 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/2457(2019.01) G06F 16/2455(2019.01) G06N 20/00(2019.01) (54)发明名称 一种用户性别预测方法及系统 (57)摘要 本发明提供了用户性别预测方法及系统, 方 法包括以下步骤: 采集包括用户的性别的样本数 据, 根据所述样本数据得到准备数据; 对所述准 备数据进行特征筛选, 以得到训练数据; 利用所 述训练数据对 预设的模型函数进行训练, 得到训 练模型; 获取待预测用户持有的终端上安装的所 有应用的应用信息, 将所述应用信息输入至所述 训练模型中, 预测所述待预测用户的性别。 该方 法可以通过SDK读取用户持有终端上安装的应 用, 通过应用识别出用户的性别, 方便快捷。 权利要求书2页 说明书8页 附图3页 CN 114595292 A 2022.06.07 CN 114595292 A 1.一种用户性别预测方法, 其特 征在于, 包括以下步骤: 采集包括用户的性别的样本数据, 根据所述样本数据得到准备 数据; 对所述准备数据进行 特征筛选, 以得到训练数据; 利用所述训练数据对预设的模型函数进行训练, 得到训练模型; 获取待预测用户持有的终端上安装的所有应用的应用信 息, 将所述应用信 息输入至所 述训练模型中, 预测所述待预测用户的性别。 2.根据权利要求1所述用户性别预测方法, 其特 征在于, 所述用户的性别通过以下 方法获得: 采集所有用户的所有标签; 从所述标签中提取 出中文的标签; 从所述中文的标签中提取 出与性别相关的标签, 以得到性别标签; 按照预设的第一筛选规则去 除所述性别标签中的无效标签, 以得到有效性别标签, 定 义所述有效性别标签为用户的性别。 3.根据权利要求2所述用户性别预测方法, 其特 征在于, 所述根据样本数据得到准备 数据具体包括: 获取用户持有的终端的终端ID以及对应的应用列表; 所述应用列表包括用户持有的终 端上安装的所有应用的应用信息; 根据用户的终端ID和应用列表得到准备 数据。 4.根据权利要求3所述用户性别预测方法, 其特 征在于, 所述对准备 数据进行 特征筛选, 以得到训练数据具体包括: 根据预设的黑名单应用、 训练效果不满足预设的训练要求或统计效果不满足预设的统 计要求的应用构建剔除列表, 定义所述剔除列表中的应用为特 征; 在所述准备数据中去除包 含在所述剔除列表中的特 征, 以得到训练数据。 5.根据权利要求 4所述用户性别预测方法, 其特 征在于, 所述模型函数为Bern oulliNB函数。 6.根据权利要求 4所述用户性别预测方法, 其特 征在于, 所述利用所述训练数据对预设的模型函数进行训练, 得到训练模型 具体包括: 利用所述训练数据对所述模型函数进行训练, 以得到第一训练结果, 所述第一训练结 果包括每组训练样本的精准度; 所述训练样本为同一个用户的性别、 终端ID和应用列表; 在所述训练数据中根据不同的精准度筛选出部分组训练样本, 定义为第一再测试样 本, 将所述第一再测试样本 重新对所述模型函数进行训练; 在所述训练数据中根据不同的筛选条件筛选出部分组训练样本, 定义为第 二再测试样 本, 将所述第二再测试样本 重新对所述模型函数进行训练。 7.根据权利要求6所述用户性别预测方法, 其特 征在于, 所述筛选条件包括以下一种或几种: 去掉男女比例为1: 1的训练样本、 去掉男女比例为1.2: 1的训练样本、 去掉男女比例为 1.5: 1的训练样本、 去掉男女比例为3: 1的训练样本 。 8.一种用户性别预测系统, 其特 征在于, 包括: 采集单元: 采集包括用户的性别的样本数据, 根据 所述样本数据得到准备数据; 对所述权 利 要 求 书 1/2 页 2 CN 114595292 A 2准备数据进行 特征筛选, 以得到训练数据; 训练单元: 与所述采集单元连接; 所述训练单元用于利用所述训练数据对预设的模型 函数进行训练, 得到训练模型; 预测单元: 与所述训练单元连接; 所述预测单元用于获取待预测用户持有的终端上安 装的所有应用的应用信息, 将所述应用信息输入至所述训练模型中, 预测所述待预测用户 的性别。 9.根据权利要求8所述用户性别预测系统, 其特 征在于, 所述采集单 元具体用于: 采集所有用户的所有标签; 从所述标签中提取 出中文的标签; 从所述中文的标签中提取 出与性别相关的标签, 以得到性别标签; 按照预设的第一筛选规则去 除所述性别标签中的无效标签, 以得到有效性别标签, 定 义所述有效性别标签为用户的性别; 获取用户持有的终端的终端ID以及对应的应用列表; 所述应用列表包括用户持有的终 端上安装的所有应用的应用信息; 根据用户的终端ID和应用列表得到准备 数据。 10.根据权利要求9所述用户性别预测系统, 其特 征在于, 所述训练单 元具体用于: 利用所述训练数据对所述模型函数进行训练, 以得到第一训练结果, 所述第一训练结 果包括每组训练样本的精准度; 所述训练样本为同一个用户的性别、 终端ID和应用列表; 在所述训练数据中根据不同的精准度筛选出部分组训练样本, 定义为第一再测试样 本, 将所述第一再测试样本 重新对所述模型函数进行训练; 在所述训练数据中根据不同的筛选条件筛选出部分组训练样本, 定义为第 二再测试样 本, 将所述第二再测试样本 重新对所述模型函数进行训练。权 利 要 求 书 2/2 页 3 CN 114595292 A 3

.PDF文档 专利 一种用户性别预测方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用户性别预测方法及系统 第 1 页 专利 一种用户性别预测方法及系统 第 2 页 专利 一种用户性别预测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:29:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。