首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大数据的微博异常用户检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆邮电大学

摘要:本发明属于社交网络安全领域,具体涉及一种基于大数据的微博异常用户检测方法;包括:获取带标签的微博用户数据;根据微博用户数据提取用户行为特征和用户文本特征,得到用户行为特征高维表征和用户文本特征高维表征;根据微博用户数据提取用户基本特征,得到用户基本特征高维表征;对三种高维表征进行两两交互,得到基本‑行为特征表、基本‑文本特征表和行为‑文本特征表;对三种特征表进行处理,得到用户交叉高维特征;将用户交叉高维特征输入到全连接神经网络中进行处理,得到异常用户检测结果;计算全连接分类损失并根据全连接分类损失调整模型参数,得到训练好的异常用户检测模型;本发明检测结果准确,有助于相关部分对舆情进行控制。

主权项:1.一种基于大数据的微博异常用户检测方法,其特征在于,包括:获取微博用户数据并将其输入到训练好的异常用户检测模型中进行处理,得到微博异常用户检测结果;异常用户检测模型的训练过程包括:S1:获取带标签的微博用户数据;S2:从微博用户数据中提取用户行为特征和用户文本特征,将用户行为特征和用户文本特征映射到高维空间,得到用户行为特征高维表征和用户文本特征高维表征;提取用户行为特征和用户文本特征的过程包括:S21:将用户发布的消息按照时间升序进行排序,采用滑动窗口对消息进行滑窗,计算每个窗口内信息发布时间间隔的平均值;选择平均值最小的窗口作为特征窗口;S22:统计特征窗口内每条信息所在当天的多个用户行为参数;根据每个用户行为参数构建二维用户行为特征表,得到用户行为特征;用户行为参数包括发文量、点赞量、转发量、评论量,发文的平均间隔时间、点赞的平均间隔时间、转发的平均间隔时间和评论的平均间隔时间;S23:统计特征窗口内每条信息所在当天的多个用户文本参数;根据每个用户文本参数构建二维用户文本特征表,得到用户文本特征;用户文本参数包括发文的平均字符数、发文的平均英文字符数、发文的平均标点符号数、发文的平均URL数、发文的平均“@”数、发文的平均“#”数、发文的平均配图数、发文的平均话题数和发文的平均词组个数;S3:从微博用户数据中提取用户基本特征,将用户基本特征映射到高维空间,得到用户基本特征高维表征;用户基本特征包括用户性别、用户昵称文本长度、用户昵称包含的非文字数、个人简介长度、个人简介包含的URL数、用户粉丝数、关注数、评论数、点赞数、以及用户注册时间与特征窗口起始时间间隔值;S4:对用户行为特征高维表征、用户文本特征高维表征和用户基本特征高维表征进行两两交互,得到基本-行为特征表、基本-文本特征表和行为-文本特征表;表征进行两两交互的公式为: 其中,feature_table表示交互特征表,Q表示第一高维表征,K表示第二高维表征,mask表示掩码矩阵,maskb表示第b个掩码矩阵,sum表示求和函数,min表示求最小值函数,softmax表示softmax激活函数;S5:对基本-行为特征表、基本-文本特征表和行为-文本特征表进行处理,得到用户交叉高维特征;S6:将用户交叉高维特征输入到全连接神经网络中进行处理,得到异常用户检测结果;S7:计算全连接分类损失并根据全连接分类损失调整模型参数,得到训练好的异常用户检测模型。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种基于大数据的微博异常用户检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。