买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安交通大学
摘要:本发明公开了一种联合LW2V与Triplet网络的新闻主题事件检测方法,本发明利用Triplet网络在样本有限的条件下无监督的实现新闻聚类,在网络中提取新闻标题添加主题信息,通过新闻标题和新闻正文的信息交互联合学习对主题信息进一步强化,克服了传统聚类技术在实现新闻主题聚类的缺点与不足。本发明使用Triplet网络作为新闻主题聚类的基础架构,可以在样本数量有限的条件下直接对样本进行比较实现模型的训练。该网络打破深度学习无法实现无监督过程的瓶颈。同时克服了深度学习在大量样本条件下对模型进行训练的先决条件。
主权项:1.一种联合LW2V与Triplet网络的新闻主题事件检测方法,其特征在于,包括以下步骤:阶段0:数据预处理步骤0:对新闻正文中的每个句子利用分词工具将句子分解为单词序列,并去除停用词;将正文对应的标题利用分词工具将句子分解为单词序列,并去除停用词;步骤1:对新闻数据的定义如下:对于新闻集News={report1,report2,…,reportZ}中每篇新闻报道包括正文以及对应的标题两部分,即Report={Body,Title};新闻正文由L个句子组成Body={s1,s2,...,sL},sl表示新闻正文中第l个句子,l∈[1,L];新闻正文中的每个句子由T个词语组成sl={wl1,wl2,...,wlT},wlt表示新闻正文中第l个句子中第t个词语,l∈[1,L],t∈[1,T],L*T=C;新闻的标题由D个词语组成Title={w1,w2,...,wD},其中,wd表示新闻标题中第d个词语,d∈[1,D];阶段1:基于LW2V生成新闻三元组步骤2:通过LDA挖掘出新闻集隐含的K个主题信息T={t1,t2,...,tK};对于每个主题,LDA能够得到主题-特征词的分布,对于每个主题,选取主题-特征词的前P个作为该主题信息的描述;前P个主题-特征词及分布表示为: 其中,表示为第k个主题下的第p个特征词,表示第k个主题下的第p个特征词的分布,w表示特征词,K表示主题的个数,P表示某个主题下特征词的个数;步骤3:采用预训练的语言模型Word2Vec作为单词嵌入工具获取每个主题特征词情境化的嵌入语义表示步骤4:将前P个主题词以及主题词的特征分布与主题特征词的嵌入表示进行加权求和得到主题特征向量: 其中,tk表示第k个主题,表示第k个主题下第p个特征词的分布,v表示某个特征词的词向量;步骤5:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻报道正文中每个词语的嵌入语义表示步骤6:新闻报道的向量为新闻中单词向量的和平均,具体计算公式下: 其中,reportz为新闻集合中的第z篇新闻报道,表示为的形式;表示第z篇报道下的第c个词语;步骤7:将新闻报道的向量分别与K个主题向量进行相似度计算,选取相似度最大的值所对应的主题作为该新闻报道的主题: 步骤8:对Triplet的输入三元组x+,x,x-进行构建;对于候选新闻报道x,在与其同主题的新闻报道集合中随机选择一篇作为x+,在与其不同主题的新闻报道集合中随机选取一篇作为x-;阶段2:新闻标题特征表示学习步骤9:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻标题中单词情境化的嵌入语义表示:xd=Word2Vecwd,d∈[1,D]5其中,xd表示该单词的词嵌入表示,wd表示新闻标题中第d个单词;步骤10:将词语的嵌入表示输入双向GRU,通过从前向隐层状态到的前向传播和从到的后向传播对词语的信息进行汇总,最终得到含有上下文信息的词语向量;通过词嵌入以及前向传播和后向传播得到的结果如下: 给定新闻标题中任意一个词语wd,通过双向GRU获取该词语的前向隐层状态和后向隐层状态最终将两个隐层状态信息进行拼接得到新闻标题以词语wd为中心时的标题信息hd;步骤11:使用注意力机制对词语赋予权重,最终将词语信息的表征聚合起来得到新闻标题的特征表示;阶段3:新闻正文与标题交互依赖特征表示学习步骤12:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻正文中每个句子下的单词情境化的嵌入语义表示:xlt=Word2Vecwlt,t∈[1,T]12步骤13:利用双向GRU对词语进行编码得到隐层表示: 步骤14:使用注意力机制聚合词语的信息对新闻正文中的句子进行特征表示:ult=tanhwwhlt+bw16 sl=∑tαlthlt18步骤15:对于输入的句子特征表示si,通过双向GRU对句子进行编码: 步骤16:使用交互注意力机制来计算在标题特征影响下正文句子的特征表示,输入新闻隐层信息与句子的隐层信息进行计算;阶段4:新闻特征表示学习步骤17:通过以上两个阶段得到新闻标题的特征表示vtitle和新闻正文的特征表示vbody,新闻报道的特征由这两部分的特征表示拼接得到;vreport=[vtitle,vbody]25步骤18:新闻三元组x+,x,x-通过Triplet网络的中的特征表示,分别得到Netx+、Netx和Netx-;其中,x+与x属于同一主题,因此Netx+与Netx在空间距离中应该更加接近;而x-与x属于不同主题,因此Netx-与Netx空间距离中应该更加远离;应用L1对两个距离进行编码,并使用softmax函数进行距离的归一化,得到:d+=distNetx+,Netx26d-=distNetx-,Netx27pd+=softmaxd+28pd-=softmaxd-29步骤19:基于同主题的新闻在空间上更加接近而不同主题的新闻更加远离的思想,构造的损失函数:loss=|pd+|+|1-pd-|30。
全文数据:
权利要求:
百度查询: 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。