买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:一种结合表情符号信息的社交机器人识别方法属于社会工程学领域。本文对推文中的表情进行处理,并重新结合输入到深度学习框架中。框架由图模型和全连接层组成,用于捕捉账户中的各种可用数据。对于推文本文的方法可以更好的分析推文的语义和其他隐含特征,更好的利用推文中的表情这一特征,捕捉表情蕴含的情感与语义,并捕捉推文之间的语义相似性,最终理解账户描述的语义。通过将这些信息传递给全连接层,本文的模型可以进行最终的预测。
主权项:1.一种结合表情符号信息的社交机器人识别方法,其特征在于包括以下步骤:第一步:表情预处理推文中的表情是Unicode表示,将推文中的Unicode转换成对应的表情内涵表达后放入原本推文,之后将新推文特征代替原始推文特征作为特征输入到模型中进行训练;第二步、用户节点特征处理对表情预处理后的数据集分类处理,按照数据集设置的四个特征,分别为用户描述特征、用户推文特征、用户数值特征和用户分类特征;对于用户描述特征rb,使用了RoBERTa预训练语言模型进行训练;使用预训练的RoBERTa模型对新的用户特征etweet进行编码;如公式1所示,首先,将用户推文和表情文字转换为RoBERTa模型的表示形式,S表示用户描述中单词的数量,通过遍历每一个用户的每条推文获得,符号表示用户推文的向量表示,其中768维的Ds表示RoBERTa的嵌入维度,张量维度采用RoBERTa模型默认的768维,bi代表每个用户的推文,R代表实数域: 利用可学习的参数WB和bB,通过线性变换将映射到维度为D的表示向量rb,如公式2所示,即用户表情转换以后的推文的代表向量;其中WB和bB赋予随机初始值,通过反向传播自动学习50轮以上获得确定值: 得到每个表情和推文的向量表示后,然后接下来将每个推文和表情文字的向量求和取平均,得到每个推文的平均向量表示,然后将每个用户的所有推文的平均向量再次求和取平均,得到单个用户的平均向量表示;对于用户推文特征rt,得到用户描述特征的向量表示;用户信息包括followers_count即粉丝数、friends_count即关注数、favorates即点赞数、statuses_counts即获取或设置用户发布的tweet的总数、active_days即活跃的天数、Screen_name即屏幕名字字符数;通过用户信息获得用户的数值特征其中包含了用户的其中的一些数量特征,对于用户的数值特征将用户的数值属性处理留给了多层感知机MLP和图神经网络,并使用全连接层获得用户数字特征的表示;通过用户信息获得用户的分类特征其中包含了用户的一些定义用户的特征,包括protected即推特账户是否设置为私有、geo_enabled即是否启用地理位置、verified即账户是否验证、contributors_enabled即是否允许共享账户、is_translator即是否自动翻译、is_translation_enabled即是否允许翻译、profile_background_tile即个人资料背景是否平铺、profile_user_background_image即该用户是否上传背景图像、has_extended_profile即是否有扩展文件、default_profile即该用户是否使用默认的主题背景和default_profile_image即用户是否正在使用默认配置文件映像,对于用户的分类特征利用多层感知机MLP和图神经网络对用户分类特征进行编码;采用了独热编码的方式对这些特征进行表示,并通过全连接层和RELU激活函数对它们进行连接和变换,以得到用户分类特征的表示;得到四个特征的表示后,将四个特征合并,如公式3所示: 得到用户节点特征;第三步:用户关系特征处理从用户的邻居节点中提取邻居节点与用户之间的关系信息,并将其转换为边索引和边类型的形式;具体而言,就是对于每个邻居,将邻居节点的索引和当前节点的索引作为边的起始节点和目标节点,并将它们添加到边索引列表中;同时,根据邻居的类型即关注者或粉丝,将相应的边类型即0或1添加到边类型列表中;第四步:E-BotRGCN模型构建在模型选择方面选择关系图卷积网络RGCN;在中E-BotRGCN以RGCN为基础构建异构图,其中Twitter用户表示为节点;该模型利用了两种类型的边,即"following"关注和"follower"粉丝,以反映用户之间的互动关系;如公式4所示,首先将用户特征进行转换,以获得图中第i个节点的初始隐藏向量; 其中W1和b1为可学习参数,并随机赋予初值,通过50轮以上的模型训练得到最终结果;ri为用户的特征向量,代表的是激活函数,采用RELU作为激活函数;然后应用第l层RGCN,如公式5所示: 其中Nr代表用户关注的账户,通过用户信息直接获取,Θself表示自身节点的投影矩阵,Θr表示相邻节点的投影矩阵并随机赋予初值,两个投影矩阵都是模型中的可学习参数,都是通过50轮以上的模型训练得到最终结果,则代表用户相邻节点xj的隐藏向量;经过RGCN的L层之后,使用多层感知机MLP对用户表示进行进一步转换;如公式6所示: hi是用户i的最终表示,是通过应用权重矩阵W2和偏置b2对进行线性变换得到的,W2和b2为可学习参数,并赋予随机初值,通过50轮以上的模型训练得到最终结果;第五步:分类是对于社交机器人的识别方法,并将其转化为标签分类问题;在设计分类模型时,使用了单标签分类器来处理这个问题;每个社交帐号都被视为一个二元值,即是否为社交机器人,0代表为人类、1代表为机器人;在进行Twitter机器人检测时,使用了一个softmax层来基于从RGCN得到的用户表示进行分类;公式7中,表示经过softmax函数处理后的预测概率,WO和bO是可学习的参数且随机初始化参数,训练模型时通过反向传播来自动更新该值,通过50轮以上的模型训练得到最终结果;将128维度的向量转换为2维向量;对于2维向量,选择其中最大的值作为最终的输出类别;具体地,将经过特征提取和RGCN训练后的矩阵y∈R128与权重矩阵w∈R128*2进行点乘,然后加上对应的偏置系数b∈R2,从而得到输出z∈R2;权重矩阵和偏置系数的初始数值取随机值,而在训练模型时,使用反向传播算法来自动更新这些值,如公式7所示: E-BotRGCN的损失函数由两部分组成;第一部分是交叉熵损失,通过将预测概率与真实标签yi进行比较,计算预测的正确程度;第二部分是权重衰减项,用于控制模型的复杂度;∑i∈y表示对标记的用户进行求和,log表示自然对数,λ是衰减系数,∑w∈θ表示对所有E-BotRGCN框架中的可学习参数进行求和;RGCN的损失函数构造如下Loss函数构造如公式8所示: 其中Z代表模型的损失,Y表示带注释的用户,通过数据集直接获得,θ是BotRGCN框架中的可学习参数集合,包括但不限于公式2的WB和bB,公式4的W1和b1,公式5的Θself和Θr,公式6的W2和b2,公式7的WO和bO,λ为正则化参数,取值为0.005。
全文数据:
权利要求:
百度查询: 北京工业大学 一种结合表情符号信息的社交机器人识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。