首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于超图嵌入的社交网络账号对齐方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:电子科技大学

摘要:本发明公开了一种基于超图嵌入的社交网络账号对齐方法,包括以下步骤:S1、数据获取:选取多个同时存在两个社交平台账号信息的账号,以这些账号为中心,采集相关的社交平台账号的个人信息、好友关系以及账号发布的动态信息;S2、构建社交网络超图;S3、基于超图随机游走的社交网络超图嵌入;S4、基于相似度计算的跨社交网络账号对齐。本发明在构建社交网络超图的基础上,提出一种基于超边权重的超图随机游走方法,得到游走序列后使用词嵌入的方法对超图节点嵌入,得到节点的嵌入向量并聚类,随后在缩小后的范围内基于账号的属性相似度计算实现跨社交网络账号的对齐。

主权项:1.一种基于超图嵌入的社交网络账号对齐方法,其特征在于,包括以下步骤:S1、数据获取:选取多个同时存在两个社交平台账号信息的账号,以这些账号为中心,采集相关的社交平台账号的个人信息、好友关系以及账号发布的动态信息;S2、构建社交网络超图,社交网络超图由多个用户节点及以下四种超边组成:1关注关系超边:根据采集到的用户之间的关注关系数据,定义如果任何两个用户节点之间都存在相互关注关系,即双向完全图,就认为这些用户处于同一条超边;2位置超边:使用地理位置信息来构建超图,处于同一城市的账号为一条超边;3语言超边:因此根据用户使用语言,使用同一种语言的账号为一条超边;4兴趣超边:对用户生成内容进行主题提取,并获得用户的主题特征向量α=[t1,t2,…,tk],α每一维的取值ti代表用户A在谈论主题i的概率;将每个主题都视为一种非成对关系,有相同兴趣的账号为一条超边;S3、基于超图随机游走的社交网络超图嵌入:在已经获得的社交网络超图基础上,开始超图随机游走;得到游走序列后,使用Word2Vec模型进行训练,输出超图中每个节点的嵌入向量,随后使用Kmeans方法对用户节点进行聚类,将具有相似特征的用户节点聚为一类;S4、基于相似度计算的跨社交网络账号对齐:对社交网络账号的用户描述、用户名和头像信息进行处理,分别计算不同社交网络平台账户在用户描述、用户名和头像信息之间的相似度,并计算总相似度。并且在聚类得到的每一类里,只有当某对账号彼此都是对方总相似度最高的节点时才视为匹配成功,以此实现跨社交网络账号的对齐;用户描述的相似度:计算用户描述字段的短文本数据短之间的相似度sdesc;使用句向量技术来将用户描述文本转化为句向量,并通过句向量来衡量用户描述的相似度;具体地,对于用户描述文本A和B,使用SBERT模型首先将其处理为词元序列[w1,w2,...,wn]和[w′1,w′2,...,w′n],接着使用BERT提取其中每一个词元wi和w′i的词向量vi和v′i,再通过池化技术来聚合所有词向量vi和v′i,从而得到用户描述文本A和B最终的n维句向量表示sa和s′a;对于用户描述文本A和B,通过余弦相似度来计算对应的句向量之间的相似度sdesc;用户名的相似度:通过用户名单词在字符上的差异来判断它们的相似性,使用Levenshtein编辑距离来处理用户名属性;具体地,对于去除了特殊字符的用户名A和用户名B,它们之间的相似度sname计算为: 其中,operation·代表在两个字符串之间进行转换所需要的最少操作数;max_len·代表字符串中最大的长度;用户头像相似度:利用VGG-16预训练模型来计算用户头像的相似度,记为spic;该模型通过卷积神经网络提取图像特征,并基于这些特征来判断图像的相似度;对于头像图像A和头像图像B,VGG-16模型在其神经网络中逐层传递图像特征,并在最后一层输出它们的1000维特征向量fA和fB,然后利用余弦相似度来计算fA和fB之间的相似度spic;总的相似度sattr由它们的平均值得到,即sattr=sname+spic+sdesc3;基于总相似度在聚类后的小范围内寻找相似度最高的用户节点视为对齐。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于超图嵌入的社交网络账号对齐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。