买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川大学
摘要:本发明公开了一种基于域自适应的多模态虚假新闻检测方法及系统,所述方法采用单模态特征提取模块、多头特征融合器、域适应器和虚假新闻分类器的多模态虚假新闻检测系统实现,包括下述步骤:将新闻的文本、图像分别输入不同的单模态特征提取模块中,抽取各自的特征向量;将提取后的文本特征向量与图像特征向量输入多头特征融合器进行特征融合,并采用多头机制提取出多维多模态特征向量;将提取的文本特征通过软注意力机制提取领域向量,使用领域向量作为指导,调整多种多模态特征表示的权重,并根据权重通过域适应器将多维多模态特征向量融合,得到最终的多模态特征融合向量;将最终的多模态特征融合向量利用虚假新闻分类器进行分类。
主权项:1.一种基于域自适应的多模态虚假新闻检测方法,其特征在于:基于包括单模态特征提取模块、多头特征融合器、域适应器和虚假新闻分类器所构成的多模态虚假新闻检测系统实现,包括下述步骤:1将新闻的文本、图像分别输入不同的单模态特征提取模块中,抽取各自的特征向量;包括下述具体步骤:1.1对于文本,采用预训练模型RoBERTa作为单模态特征提取模块,通过24个隐藏层提取文本的特征向量,且在进行特征提取时采用下式完成:T={t1,...,tm}=RoBERTaS,其中,S表示新闻文本内容,t表示经过24个隐藏层后每个单词的向量表示,m表示文本中的单词数量,T代表文本特征向量;1.2对于图像,采用预训练的ResNet50模型作为单模态特征提取模块进行图像的特征向量提取,且在进行特征提取时,采用下式完成:V={v1,...vn}=ResNet50I,其中,I表示新闻对应的图像内容,v表示从预训练的ResNet50模型中提取的图像向量表示,n表示图像的嵌入维度,V表示图像特征向量;在进行图像特征提取时,通过预训练的ResNet50模型的第四个残差块来获取图像的特征向量,并将获取的图像的特征向量调整为3维;2将提取后的文本特征向量与图像特征向量输入多头特征融合器进行特征融合,并采用多头机制提取出多维多模态特征向量;在进行特征融合时,采用软注意力机制进行特征融合;在采用多头机制进行多维多模态特征向量提取时,利用下式完成:x=exp[atextlnT+aimagelnV],其中x代表提取的多维多模态特征向量,T代表文本特征向量,V表示图像特征向量,atext和aimage都是可学习的参数,分别表示图片特征向量和文本特征向量占所提取的多维多模态特征向量的比重;3将提取的文本特征通过软注意力机制提取领域向量,使用领域向量作为指导,调整多种多模态特征表示的权重,并根据权重通过域适应器将多维多模态特征向量融合,得到最终的多模态特征融合向量;包括下述步骤:3.1使用文本特征向量T中的每个向量ti,通过注意力机制得到权重分布gi,且gi=vtanhWti+b,其中,v表示从预训练的ResNet50模型中提取的图像向量表示,W表示一个可学习的参数矩阵,用于将文本特征向量映射到一个新的特征空间,b表示一个偏置向量,用于在特征转换过程中调整特征向量的线性变换;3.2对权重分布gi做归一化处理:其中,αi是经过归一化处理后得到的权重分布,M表示参与权重计算的样本总数量,表示归一化因子,用于对权重分布进行标准化处理,以确保权重和为1,j表示权重分布的索引,用于标识不同的权重分布项,gj表示索引j下的权重分布值,用于表示某个特征向量的权重;3.3将文本特征向量加权求和,得到领域特征向量:其中,d是领域特征向量,N表示训练样本的总数量,i表示的是求和的索引变量,它遍历从1到N的所有整数;3.4使用领域特征向量d作为指导,调整多维多模态特征向量的权重:γ=softmaxfd,其中,γ表示归一化后多维多模态特征向量的权重分布,fd表示一个非线性激活函数,它将领域特征向量d变换为一个新的特征表示,以便更好地指导多维多模态特征向量的权重调整;3.5根据权重将多维多模态特征向量融合,得到最终的多模态特征融合向量:其中,r表示最终的多模态特征融合向量,H表示一个融合后的多模态特征向量集合,用于进一步进行特征融合和分类,γi表示第i个特征向量的归一化权重,用于在特征融合过程中赋予不同特征向量不同的权重,xi表示第i个特征向量;4将最终的多模态特征融合向量利用虚假新闻分类器进行分类,将多模态特征融合向量映射为一个概率分布,表示该新闻属于真假分类的可能性;最后使用交叉熵计算分类损失,通过最小化分类损失来训练整个多模态虚假新闻检测系统;其中,将多模态特征融合向量映射为一个概率分布,通过下式实现:其中,表示预测标签,通过最终的多模态特征融合向量输入多层感知机MLP得到,r表示最终的多模态特征融合向量;交叉熵计算分类损失时,通过下式实现: 其中,yi表示真实标签,L表示预测的损失,N表示训练样本的总数量。
全文数据:
权利要求:
百度查询: 四川大学 一种基于域自适应的多模态虚假新闻检测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。