首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本摘要提取方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国石油天然气股份有限公司

摘要:本发明提供了一种文本摘要提取方法及装置,涉及自然语言处理技术领域,该方法包括:获取文本信息和文本语料词向量集合信息;对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量;根据词向量生成文本信息的句向量、文向量和标题向量;根据句向量、文向量和标题向量生成相似度评分;根据相似度评分确定文本信息的摘要信息。本发明利用句向量、文向量和标题向量生成相似度评分,可以提高抽取出的摘要句和原文的语义相关度,从而找出与原文中心思想非常贴近的句子,进而提升文本摘要质量。

主权项:1.一种文本摘要提取方法,其特征在于,包括:获取文本信息和文本语料词向量集合信息;获取文本信息和文本语料词向量集合信息之前,还包括:获取文本语料信息;利用停用词表对所述文本语料信息进行清洗处理;根据清洗结果生成文本语料词向量集合信息;包括:利用神经网络模型根据清洗结果生成文本语料词向量集合信息;对所述文本信息进行分词处理,根据分词处理结果和所述文本语料词向量集合信息确定所述分词处理结果中每个词语的词向量;根据所述词向量生成所述文本信息的句向量、文向量和标题向量;根据所述句向量、所述文向量和所述标题向量生成相似度评分;根据所述相似度评分确定所述文本信息的摘要信息;对所述文本信息进行分词处理,根据分词处理结果和所述文本语料词向量集合信息确定所述分词处理结果中每个词语的词向量,包括:利用标点符号对文本信息进行分句处理后,将文本信息分隔为若干个句子;利用分词工具对每个句子进行分词处理,将每个句子拆分为若干词语,并在文本语料词向量集合中查询出每个词语对应的词向量;根据所述词向量生成文向量包括:基于词向量构建句向量,再基于句向量构建文向量;或者基于词向量构建文向量;包括:利用平滑倒词频方法根据所述词向量生成所述文本信息的句向量、文向量和标题向量;利用平滑倒词频方法根据所述词向量按照如下公式生成所述文本信息的句向量: 其中,s表示句子,|s|表示句子s中词向量的个数,w表示词语,vs表示句向量,vw表示词向量,a表示平滑参数,pw表示词语在文本语料词向量集合中的词频;根据所述句向量、所述文向量和所述标题向量生成相似度评分,包括:计算所述句向量与所述文向量的第一相似度;计算所述句向量与所述标题向量的第二相似度;根据所述第一相似度和所述第二相似度计算加权相似度;根据所述加权相似度生成相似度评分;利用如下公式计算所述句向量与所述文向量的第一相似度:Sc=similarityvs,vc其中,Sc表示第一相似度,vs表示句向量,vc表示文向量,similarity表示相似度计算函数;利用如下公式计算所述句向量与所述标题向量的第二相似度:St=similarityvs,vt其中,St表示第二相似度,vs表示句向量,vt表示标题向量,similarity表示相似度计算函数;利用如下公式根据所述第一相似度和所述第二相似度计算加权相似度:Si=w1·St+w2·Sc其中,Si表示加权相似度,Sc表示第一相似度,St表示第二相似度,w1表示第一权值,w2表示第二权值;利用如下公式根据所述加权相似度生成相似度评分:S目标=w1·Si-m+w2·Si-m+1+w3·Si-m+2+…+wk·Si+n其中,S目标表示相似度评分,Si-m,Si-m+1,Si-m+2,…Si+n表示加权相似度,w1,w2,w3,…wk表示权值,k=m+1+n,Si-m可以代表在Si对应句子的左边第m个句子的加权相似度,Si+n可以代表在Si对应句子的右边第n个句子的加权相似度;根据所述相似度评分确定所述文本信息的摘要信息,包括:对所有句子按照相似度评分从高到低排序,挑选出前预设数量个句子作为文章的摘要句;利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算第一相似度或第二相似度。

全文数据:

权利要求:

百度查询: 中国石油天然气股份有限公司 文本摘要提取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。