买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于时空大数据的客户画像关键数据挖掘方法和系统,包括以下步骤:获取多源异构时空大数据,经过特征提取、动态分类和标准化处理,得到高质量的时空数据集;基于时空数据集提取时空特征矩阵,构建客户行为模型和个性化时空偏好模型;融合客户特征,构建客户画像集和动态客户群体;基于动态客户画像和群体分析结果,生成推荐模型和策略集。本方法能有效处理大规模异构时空数据,能够更准确地捕捉稀疏和噪声数据中的用户行为模式,提高客户画像的准确性和时效性。
主权项:1.基于时空大数据的客户画像关键数据挖掘方法,其特征在于,包括如下步骤:步骤S1、获取多源异构时空大数据,经Transformer特征提取、动态分类、自适应标准化、图论质量评估、Wasserstein距离异常检测和图神经网络张量补全,得到高质量的时空数据集;步骤S2、基于时空数据集,通过多尺度奇异谱分析和拓扑分析提取时空特征矩阵;利用图注意力扩散网络构建客户行为模型,获取行为模式和时变社区结构;应用注意力机制的轨迹分段和层次化主题模型,提取语义轨迹和时空模式;结合多维度偏好张量和图神经网络,构建个性化时空偏好模型;最后设计时空图卷积神经网络,生成异常检测模型和异常行为集合,构建输出数据集;其中输出数据集包括时空特征矩阵F、客户行为模式P、时变社区结构Ct、语义轨迹ST、时空模式M、个性化时空偏好模型PM、异常检测模型AD和异常行为集合AB;步骤S3、基于输出数据集,通过元路径引导的图注意力机制和层次化对比学习,融合客户特征得到向量集;基于向量集,使用递归神经主题模型和动态因子图构建客户画像集;采用谱图理论和动态流形学习,得到动态客户群体和演化模式;输出动态客户画像和群体分析结果;步骤S4、基于动态客户画像和群体分析结果,采用构建的动态异构图神经网络和多任务强化学习框架,生成推荐模型和策略集;所述步骤S1具体为:步骤S11、获取来自多个异构数据源的、不同类型的原始时空大数据,针对每个数据源,采用预训练的Transformer模型进行特征提取,包括:将时空数据序列化为适合Transformer处理的格式,得到输入序列;将输入序列输入Transformer模型,通过多层自注意力机制和前馈神经网络处理,得到增强特征序列;对增强特征序列进行聚合,得到该数据源的整体特征表示,得到并输出增强特征数据集,包括原始数据及其对应的增强特征,原始数据包括原始轨迹数据;步骤S12、获取增强特征数据集,先对每个增强特征数据集,提取特征向量,构建动态相似度矩阵,计算其拉普拉斯矩阵,求解广义特征值问题得到时变特征向量,基于时变特征向量进行聚类,完成采用动态谱聚类算法对特征向量进行分类过程,得到分类后数据集;时变特征向量包括时间粒度、空间精度和数据类型;步骤S13、获取分类后数据集,进行时间标准化、检测时间戳格式并统一转换为Unix时间戳,应用小波变换进行时间序列分解,提取多尺度时间特征,使用自适应时间窗口法对时间序列进行重采样,接着进行空间标准化、将所有空间坐标转换为统一的地理坐标系,对于非点数据,应用基于曲率的形状描述符提取特征点,使用Riemann流形学习方法对空间数据进行非线性归一化,进而完成对每个分类后数据集进行时空标准化处理后,得到标准化时空数据集;步骤S14、针对标准化时空数据集,调用构建时空超图,应用超图谱理论,计算每个顶点的超图拉普拉斯特征值,调用质量分数的阈值,将低于阈值的数据点标记为待修复数据集;得到质量评分后的数据集和待修复数据集,并对每个数据集进行数据质量评估;其中,时空超图的顶点表示数据点,超边表示时空关系;质量分数是基于深度学习的非线性映射函数对特征值的处理结果;步骤S15、获取质量评分后的数据集,并构建时空特征向量,应用基于Wasserstein距离的异常检测算法、估计数据的经验分布;对于每个数据点,计算其与经验分布的Wasserstein距离,并使用极值理论动态设置异常阈值;将距离大于阈值的数据点标记为异常值,加入异常值集合;得到清洗后的数据集和异常值集合;其中,时空特征向量包括时间特征、空间特征和属性特征;步骤S16、获取清洗后的数据集、待修复数据集和异常值集合,构建时空-属性四阶张量,并引入额外的模态维度来表示数据可靠性,采用基于图神经网络的张量补全算法,将张量表示为异构图,构建图注意力网络层来学习节点表示,使用图自编码器架构重建缺失值;对于时空密度不足的区域,应用基于高斯Copula的条件生成模型生成新数据点;完成对进行数据补全与增强,得到补全后的高质量的时空数据集;步骤S3具体为:步骤S31、获取步骤S2输出的客户相关数据,构建异构信息网络;构建并应用关键元路径集合,使用图注意力机制计算节点的语义特定嵌入;设计自适应注意力机制,整合多元路径信息得到节点的综合嵌入;通过层次化对比学习任务进一步优化节点表示;最终输出融合后的客户特征向量集;步骤S32、获取融合特征向量集,应用递归神经主题模型捕捉主题随时间的演化过程;构建动态因子图模型捕捉特征间的时变依赖关系;整合这两个模型的输出,生成多粒度客户画像,包括宏观层面的主题演化轨迹、中观层面的关键特征时变分布和微观层面的瞬时特征向量;输出动态客户画像集;步骤S33、获取动态客户画像集,构建时变客户相似度图;应用谱图理论和增量奇异值分解进行动态社区检测;构建社区演化流形,使用动态流形学习算法捕捉群体结构的连续变化;分析流形轨迹,提取客户群体演化过程中的关键事件;最终输出动态客户群体结构和演化模式集合;步骤S4具体为:步骤S41、获取动态客户画像和群体分析结果;构建多关系图并构建动态异构图神经网络,捕捉用户的长短期兴趣变化和异构关系的特定语义;步骤S42、基于动态异构图神经网络,构建分层强化学习框架,构建包含客户画像、群体结构和上下文信息的状态空间,以及包括推荐项目、交互方式和推荐时机的动作空间;通过训练强化学习代理,生成个性化推荐策略;步骤S43、构建时序因果图并应用双机器学习方法,使用反事实推理技术优化推荐决策;整合动态异构图神经网络、分层强化学习框架、个性化推荐策略、时序因果图、双机器学习方法和反事实推理技术,形成完整的个性化推荐模型和交互策略集。
全文数据:
权利要求:
百度查询: 南京埃飞勒信息科技有限公司 基于时空大数据的客户画像关键数据挖掘方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。