买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京小裂变网络科技有限公司
摘要:本发明涉及大数据技术领域,尤其为一种基于大数据的私域业务标签筛选系统及其方法,包括:数据收集单元:用于从不同渠道和平台收集用户的数据;数据集成单元:用于将收集到的数据进行整合,统一格式化;用户画像单元:用于基于大数据技术,通过数据挖掘和分析,整合用户的多个维度数据,形成完整的用户画像;标签管理单元:用于实时更新和管理不同的标签;标签筛选单元:用于根据用户画像和标签定义,筛选出符合条件的标签。本发明基于标准分数,将不同的用户数据进行标准化,确保了数据的统一性,为生成用户画像提供了精确的数据基础,同时,形成完整的数据画像基于大数据技术,提高了算法模型的质量以及标签的准确性。
主权项:1.一种基于大数据的私域业务标签筛选系统,其特征在于:包括:数据收集单元1:用于从不同渠道和平台收集用户的数据;数据集成单元2:用于将收集到的数据进行整合,统一格式化;用户画像单元3:用于基于大数据技术,通过数据挖掘和分析,整合用户的多个维度数据,形成完整的用户画像;标签管理单元4:用于根据业务需求和用户特征,实时更新和管理不同的标签;标签筛选单元5:用于根据用户画像和标签的更新管理,筛选出符合条件的标签;所述数据集成单元2包括:数据清洗模块21:所述数据清洗模块21用于去除重复、无效或错误的数据;数据合并模块22:所述数据合并模块22用于将多个数据源整合到一起,形成完整的数据集;数据格式化模块23:所述数据格式化模块23用于对整合后的数据进行标准化处理,确保数据的统一性;所述数据格式化模块23基于标准分数Z-score,公式如下: 其中,x是用户数据样本的值,μ为用户数据样本值的平均值,σ为用户数据样本值的标准差;所述用户画像单元3包括:特征提取模块31,所述特征提取模块31用于对数据进行统计分析,提取有用的信息特征;标签化模块32,所述标签化模块32用于根据统计分析的结果对用户进行分类和标记;画像评估模块33,所述画像评估模块33用于对构建放入画像进行评估和优化,确保用户画像的质量和可用性;所述标签化模块32中的分类标记基于皮尔逊相关系数,所述皮尔逊相关系数的公式如下: 其中,covx,y为变量x和y的协方差,σx和σy分别是变量x和变量y的标准差,Ei表示i的期望值;所述画像评估模块33基于F-score指标,所述F-score指标的公式如下: 其中,α为一个权重数,P为精确率,R为召回率,P和R的公式如下 其中,TP为原本是正确样本同时也被分为正确的样本数,FP为原本是错误的样本却被分为正确的样本数,FN为原本是错误的样本被正确分为错误的样本数;所述特征提取模块31基于随机森林特征选择算法,随机森林特征选择算法中的判断方法为基尼系数,所述基尼系数的公式如下:其中,A为特征,数据集D分为D1和D2;k为特征的种类,为第k类的概率。
全文数据:
权利要求:
百度查询: 南京小裂变网络科技有限公司 一种基于大数据的私域业务标签筛选系统及其方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。