首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种新闻特征向量的构建方法及应用 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西交利物浦大学

摘要:本发明揭示了一种新闻特征向量的构建方法及应用,根据上下文关系网络中边的权重,采用node2vec图嵌入模型偏差随即游走形成序列,将新闻特征向量集合及对应的序列保存,得到向量字典。本发明的有益效果主要体现在:提出了一个全新的训练新闻特征向量的方法,提出了一个全新的subnode模型使networkembedding有了计算不在训练集中的新闻的能力。本发明训练出的新闻特征向量不仅可以表示语义特征,还可以融入新闻种类,时间,情绪,文本结构等种种特征。

主权项:1.一种新闻特征向量的构建方法,其特征在于:包括如下步骤,S1、获取新闻文本,组成训练集,提取每个新闻文本的标题为新闻节点;S2、提取所述新闻节点中的关键词节点,并形成上下文关系网络;S3、根据边的权重度量转移概率,采用node2vec图嵌入模型偏差随机游走,依次以每一个新闻节点为起点游走,下一个新闻节点即从与其相连的关键词节点中根据转移概率随机选择,转移概率分布等于该新闻节点的所有边的归一化结果,游走固定长度后形成序列;S4、重构新闻节点,区分序列中关键词节点和新闻节点,移除各个序列中的关键词节点,将新闻节点改写成新闻特征的集合,并训练得到的是每个新闻特征的向量,这些低维度的向量相加即为一个新闻文本的向量;S5、将新闻特征向量集合及对应的序列保存,得到向量字典;所述S2中“提取所述新闻节点中的关键词节点,并形成上下文关系网络”具体包括:S21、利用自然语言处理工具对每个新闻节点根据词性抽取实体和动作,所述实体和动作统称为关键词节点;S22、利用抽取出的实体和动作连接成新闻数据集:每个新闻节点仅与关键词节点相连,关键词节点相互之间不直接相连,新闻节点相互之间不直接相连;S23、通过tf-idf测量新闻节点和关键词节点间的边的权重,形成带有权重的新闻数据集网络,即为所述上下文关系网络;所述tf-idf的定义为: 其中ni,j表示在第j个文本中第i个单词的个数,Σknk,j表示在第j个文本中单词的总个数,两者相除即为词频,其中,|D|是文本的总个数, 为逆向文件频率;基于tf-idf测量新闻节点和关键词节点间的边的权重的步骤包括,采用如下公式计算 其中,ve代表新闻节点,vk代表关键词节点,ve,vk代表两者的边,边的权重等于该关键词在标题中的tf-idf归一化结果加上在正文中的tf-idf归一化后的值。

全文数据:

权利要求:

百度查询: 西交利物浦大学 一种新闻特征向量的构建方法及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。