买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:完美世界控股集团有限公司
摘要:本申请实施例提供一种相似新闻识别方法、设备、系统及存储介质。在相似新闻识别方法中,计算新闻的相似度时,将新闻中的标题与正文进行分开处理,根据标题对应的文本,计算标题的相似度,并根据正文对应的文本及文本长度,计算文本的相似度,可在一定程度上降低文本长度差异对相似度的影响,有利于计算得到更加准确的相似度。同时,对标题的相似度和正文的相似度进行融合得到新闻的相似度,可快速得到新闻文本的相似度计算结果,降低识别相似新闻所需的时间成本以及计算成本,提升相似新闻的识别效率。
主权项:1.一种相似新闻识别方法,其特征在于,包括:获取待识别的第一新闻文本和第二新闻文本;所述第一新闻文本包含第一标题和第一正文,所述第二新闻文本包含第二标题和第二正文;根据所述第一标题和所述第二标题各自对应的文本,计算所述第一标题和所述第二标题之间的标题相似度;根据所述第一正文和所述第二正文各自对应的文本长度,计算相似度惩罚项;根据所述第一正文和所述第二正文各自对应的文本以及所述相似度惩罚项,计算所述第一正文和所述第二正文之间的正文相似度;对所述标题相似度和所述正文相似度进行融合,得到所述第一新闻文本和所述第二新闻文本的相似度;所述方法还包括:计算所述第一正文和所述第二正文之间的文本长度差的绝对值;若所述文本长度差的绝对值大于设定的第二阈值,则分别从所述第一正文和所述第二正文中确定第一句子和第二句子,所述第一句子和所述第二句子包含的相同正文词条的数量最多;根据所述第一句子和所述第二句子各自的语义,计算所述第一句子和所述第二句子的句子相似度;对所述句子相似度以及所述正文相似度进行加权求和,以更新所述正文相似度;所述句子相似度的加权系数与所述文本长度差的绝对值成负相关关系。
全文数据:
权利要求:
百度查询: 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。