首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于证据增强的假新闻检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学;西北工业大学深圳研究院

摘要:本发明公开了一种基于证据增强的假新闻检测方法,首先从语义和情感的角度促进评论与新闻的互动融合,从而学习新闻中潜在的可疑片段。然后,构建实体级和关系级检索,以从外部来源筛选足够的候选证据。最后,通过多视角推理来衡量可疑片段和候选证据之间的一致性,并进一步推断出发现新闻虚假部分的可解释证据。本发明以证据增强为突破,为社交媒体的谣言治理提供了新思路,有效解决虚假新闻检测问题。

主权项:1.一种基于证据增强的假新闻检测方法,其特征在于,包括如下步骤:步骤1:构建多模态假新闻检测系统,包括输入编码层、层次冲突发现层、外部证据增强层和多视角一致性推理层;步骤2:输入编码层;输入包括三种类型:新闻标题、新闻内容和新闻评论;将任意带有n个词的序列表示为X={x1,x2,…,xt,…,xn},其中,xt是一个通过预训练BERT模型获得的d维向量;第i个序列的编码为Xi,采用自注意力网络学习序列内部词与词之间的上下文依赖关系,自注意力网络输出Ei;新闻标题、新闻内容和新闻评论的编码特征分别由ET、EC和ER表示;步骤3:层次冲突发现层;步骤3-1:关键语义学习块;构建交叉注意力网络促进新闻标题与新闻内容的交互从而捕获新闻中的关键语义片段,公式化为: 其中Q、K和V分别为查询、键和值矩阵,Q=ET,K=V=EC,dk是新闻评论矩阵的输出矩阵的列尺度;步骤3-2:使用多头注意力来线性映射查询、键和值信息: HF=MultiHeadQ,K,V=Concathead1,head2,…,headmWo3其中和Wo均为可训练参数;HF为捕获的新闻关键片段;步骤3-3:基于语义的聚类机制来挖掘所有评论中的主流立场观点;采用单层聚类形式,不需要设定任何聚类值,通过一个相似度阈值决定是否将新评论划分为一个新类型;以这样的方式,获得带有不同主流立场观点的多个聚类簇S={S1,S2,...,Sk},k为主流立场个数;步骤3-4:设计层次交互融合块,从语义和情感层面建立新闻和评论之间的分层互动;使用交叉注意力加强新闻和评论主流观点的关键片段之间的互动:H′F=AttentionHF,HF,HR4H′R=AttentionHR,HR,HF5HFR=[H′F;H′R]6其中,HFR为语义级质疑片段;HR表示带有不同立场观点的多个聚类簇;步骤3-5:设计情感图增强交互块,首先构建情感图网络来建模关键片段与评论的主流观点中情感词之间的关系,然后采用情感注意力挖掘情感级矛盾点;步骤3-5-1:情感图构建;给定新闻或评论序列X={x1,x2,…,xn},利用情感词典评估任意两个单词之间的情感得分,并获得邻接矩阵其中E’中的每个元素ei,j为: 其中uxi和uxj分别表示第i和j个词的情感得分;|·|是绝对值;步骤3-5-2:利用句法依赖树解析整个序列,学习情绪词之间的结构特征;相依邻接矩阵D中的每个元素为: 其中,vi,j=1表示句法依赖树中的第i个词xi和第xj个词之间有一条边;vi,j=0表示这两个词之间没有任何关联;步骤3-5-3:采用协调机制控制两个图之间的总体比例,从而形成情感增强图;El=αE′l+1-αDl9其中α是超参数,El为情感增强图的第l轮迭代后的结果,E′l表示邻接矩阵的第l轮迭代结果,Dl表示依赖邻接矩阵的第l轮迭代结果;步骤3-6:设计两种汇聚融合模式;步骤3-6-1:注意力汇聚融合;利用语义层面的冲突信息关注情感图的聚合,得到公共的上下文质疑特征Oa: 其中,Wo和W′o均为可训练参数,表示情感增强图第l轮迭代结果中第i个元素,oi表示第i个融合情感编码,ok表示第k个融合情感编码,表示情感增强图第l轮迭代结果中第k个元素,βi表示第i个情感增强图的权重,N是情感图的节点数量;步骤3-6-2:采用动态权重平衡语义和情感层面特征之间的比例,然后最大化挖掘情感质疑特征Om:μm=σHFRWμ1+ElWμ2+Wμ13 其中,所有带下标的W和b均为可训练的参数,σ表示激活函数;步骤3-6-3:整合两种融合模式,以最大化新闻和评论之间的可疑信息:O=[Oa;Om]15步骤4:外部证据增强层;步骤4-1:双视角关键词检索块,包括实体级关键词检索和关系级关键词检索;步骤4-1-1:实体级关键词检索;步骤4-1-1-1:关键字匹配;1标题引导匹配:使用新闻标题作为关键字种子从维基百科中检索;2共现词提取:将标题和内容作为一个整体,提取它们的共现词并按数量排序,然后选择前K个词作为种子进行检索;步骤4-1-1-2:关键词种子优化;通过删除停止词和按顺序过滤重要性低的关键词进行关键词种子优化;步骤4-1-2:关系级关键词检索;步骤4-1-2-1:使用语义角色标记SRL解析新闻标题和新闻内容,在自变量之间建立连接构建图,然后利用基于图的推理方法来获得新闻中的关键词种子;将从两个层次检索到的文章进行整合,形成相关的文章集A;步骤4-1-2-2:从文章集中抽取证据句子Ec; 其中,∪为并集,是Ec的第i个句子,Si表示检索到的文章句子集S中的第i个句子;步骤4-2:利用预先训练BART模型提高句子选择的准确性;将新闻X和检索到的相关文章的句子Si输入到模型中:[CLS]X[SEP]Si[EOS];对模型的输出使用BIO形式进行分类,将不相关的标记分类记为O,证据句子中的第一个标记被设置为B证据,证据句子的其余标记被设置作为I证据;对所有相关文章进行上述操作,最终获得p个句子的最有可能的证据集E={e1,e2,…ep};步骤5:多视角一致性推理层;包括多个一致性建模块和合成推理块;步骤5-1:一致性建模块包括因果一致块、共同一致块和精炼一致块;这三个一致性块均为扩展自注意机制,调整非线性变换层f·以适应不同的一致性策略; 其中,表示注意力权重,hi表示第i个被关注的句子,atti表示第i个注意力权重,r表示被注意力优化后获得的特征;步骤5-1-1:因果一致块;将新闻和外部潜在证据的冲突信息映射到同一维度空间,进行互动比较;α′O=WαO+bα19βE=WβE+bβ20γE=WγE+bγ21 c=fcO,E=σβE⊙α′O+γE22其中,所有带下标的W和b均为可训练参数,⊙为元素间点乘,E表示最有可能的证据集;;步骤5-1-2:共同一致块;共同一致块将从全局视角发现冲突信息和潜在证据之间的不一致性特征映射并转换在一起: m=fmO,E=tanhWm[O||E]+bm23步骤5-1-3:精炼一致块;首先浓缩新闻中的质疑信息,然后进一步与外部证据相互作用,以精炼出其中的不一致特征: r=frO,E=σWrE+br⊙O24其中Wr和br为可训练参数;步骤5-1-4:将因果一致块、共同一致块和精炼一致块整合为冲突信息和外部证据之间的多视图一致语义G:=c+m+r25步骤5-2:合成推理块;步骤5-2-1:构建交叉注意力网络得到新闻的虚假部分Hgo和相关证据Hge之间的互动关联;Hgo=Attention,,O26Hge=Attention,,E27步骤5-2-2:启发式融合;Hgoge=[Hgo;|Hgo-Hge|;Hgo⊙Hge;Hge]28步骤5-2-3:将前馈网络应用于融合的结果,添加非线性特征和尺度不变特征;Igo=FFNHgo,Hgoge=max0,[Hgo;Hgoge]W1+b1W2+b229Ige=FFNHge,Hgoge=max0,[Hge;Hgoge]W3+b3W4+b430Igoe=[Igo;Ige]31步骤6:采用softmax函数用于训练的概率分布,其中损失驱动模型最小化具有标准标签y的训练实例的交叉熵误差:Loss=-∑ylogp32p=softmaxWpIgoe+bp33。

全文数据:

权利要求:

百度查询: 西北工业大学 西北工业大学深圳研究院 一种基于证据增强的假新闻检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。