买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东北大学
摘要:本发明公开了一种应用于用户画像领域的数据增广方法,涉及用户画像标签预测领域;克服了标签率极低的问题,同时提高模型的泛化性,以便于根据用户行为数据预测多维度多标签的用户画像标签,并且有效结合自监督学习,能够在用户标签率极低的情况下实现用户分类,降低了人工标注数据集的成本,提高了模型的泛化能力,同时克服图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降的问题,提高模型分类的准确性。
主权项:1.一种应用于用户画像领域的数据增广方法,其特征在于:包括以下步骤:S1:根据原始数据中用户的好友关系,构建用户异质网络图,图中每个节点都代表一个用户,图中每一条边都代表连接的两个用户拥有好友关系,通过图神经网络聚合当前节点的邻域节点信息,得到当前节点嵌入向量;S2:根据S1获取的当前节点嵌入向量,通过图神经网络分类器,得到多标签分类概率矩阵,对个节点的每个标签的概率进行过滤,大于阈值的生成节点标签;S3:根据用户异质网络图,利用自监督学习思想,采用图划分技术的自监督学习方式,得到若干个划分后的子图,在每个子图中对无标签节点进行对齐操作,使其与真正的标签匹配,为无标签节点生成伪标签;所述步骤S3具体包括:S3.1:根据用户异质网络图的节点表示,计算节点在特征空间上的距离,根据距离计算节点的相似矩阵,以相似矩阵作为输入,利用图划分技术对整个用户异质图进行划分,得到若干个子图;S3.2:在每个子图内,依次对属于每类标签的节点进行分类,然后在分类后的有标记节点嵌入向量中对每个维度计算平均值,得到的新的节点嵌入向量作为简易质心,根据得到的质心,利用欧式距离公式计算无标记节点嵌入向量到质心的距离。S4:对S2生成的节点标签、利用S3中生成的伪标签进行自检,一致则加入真实标签集,迭代进行训练多次,以扩充训练数据集。
全文数据:
权利要求:
百度查询: 东北大学 一种应用于用户画像领域的数据增广方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。