首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于RoBERTa-wwm-ext模型的社交机器人检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北林业大学

摘要:本发明涉及一种基于RoBERTa‑wwm‑ext模型的新浪微博社交机器人检测方法,其中基于RoBERTa‑wwm‑ext模型的新浪微博社交机器人的检测方法包括:获取新浪微博数据集并进行预处理,使用BiLSTM提取基于用户元数据的时间模式的特征,使用RoBERTa‑wwm‑ext提取微博文本的语义特征,使用情感词典提取情感特征,接着使用串行连接的方式进行特征融合,输入基于基于BiGRU的深度神经网络模型中进一步提取特征,最后通过Sigmoid激活函数得到分类结果。本发明使用的RoBERTa‑wwm‑ext提取微博文本语义特征进行社交机器人检测的方法可以有效提升社交机器人检测的性能。

主权项:1.基于RoBERTa-wwm-ext模型的社交机器人的检测方法,其特征在于,包括如下步骤:步骤1:通过使用新浪微博api采集新浪微博用户数据集,将每个新浪微博用户发布的最近50条原创微博作为微博文本数据集保存,与微博用户ID一一对应;步骤2:使用双向长短期记忆网络LSTM,LongShort-TermMemory提取微博用户数据的时间模式的特征,使用RoBERTa-wwm-ext模型提取微博文本的语义特征,使用情感词典提取微博文本的情感分数,并将上述语义特征、情感特征、微博用户的数据特征融合;步骤3:将特征矩阵输入到基于双向门控循环单元BiGRU,BidirectionalGatingRecurrentUnit后接注意力机制Attention的分类器中进行训练;根据权利要求1所述的基于RoBERTa-wwm-ext模型的社交机器人检测方法,其特征在于,所述步骤1包括如下步骤:步骤1.1:通过调用新浪微博api采集新浪微博用户数据集,包括用户数据,用户最近发布的50条微博,并存入数据库中,使用众包的方式聘请“专家”对数据集进行标注;步骤1.2:对数据集进行清洗,包括:删除重复用户,不活跃用户和已注销用户,然后,得到了本研究所需数据集;步骤1.3:提取社交媒体用户数据集中的微博文本,过滤微博文本中不相关的网页链接、非法字符、特殊表情,使用python中的jieba工具包对微博文本做分词处理;步骤1.4:随机抽取80%作为训练集,剩余20%的用户作为验证集;根据权利要求1所述的基于RoBERTa-wwm-ext的社交机器人检测方法,其特征在于,所述步骤2包括如下步骤:步骤2.1:将预处理后的训练集和验证集输入RoBERTa-wwm-ext中进行语义特征的提取,将RoBERTa-wwm-ext的倒数第二个隐藏层输出的特征向量作为数据集的语义特征,记作:{Tn×768},其中n表示数据集的长度,768表示特征矩阵的维度;步骤2.2:使用大连理工大学中文情感词汇本体库进行情感分析,该词典将情感分为7大类,21小类,首先将情感强度由1,3,5,7,9映射为1,2,3,4,5,即: 将情感极性由原先的0、1、2映射到0、-1、1,记作:Emotion_P={-1,0,1},然后将情感极性与情感强度相乘得到7个情感类别的情感分数: 其中E表示7个情感类别的情感强度,根据上述公式,使用基于词典的方法计算用户级的微博文本的情感分数,作为每个账户的微博文本的情感特征: 步骤2.3:使用One-hot编码对用户数据进行特征编码,并输入BiLSTM中提取用户数据的序列模式的特征,提取出的特征矩阵: 步骤2.4:使用串行连接的方式将步骤2.2、2.3、2.4中的特征融合: 融合后的特征矩阵作为基于BiGRU-Attention的分类器的输入;根据权利要求1所述的基于RoBERTa-wwm-ext模型的社交机器人检测方法,其特征在于,所述步骤3包括如下步骤:步骤3.1:将融合后的特征矩阵输入基于BiGRU-Attention的神经网络中进行分类,使用注意力模块可以让神经网络把注意力集中在一部分输入;步骤3.2:使用sigmoid函数将输出的数据转换为[0,1]的范围:大于等于0.5则表示为社交机器人,小于0.5则为正常用户。损失函数定义为: 其中,Pxi表示分类器输出的预测值。

全文数据:

权利要求:

百度查询: 东北林业大学 基于RoBERTa-wwm-ext模型的社交机器人检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。