买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:成都信通信息技术有限公司
摘要:本发明涉及文本处理领域,公开了一种基于NLP的文本相似度分析方法及系统。包括:建立标准词库;将标准词库处理为标准特征向量集;分别对第一文本和第二文本进行文本处理,得到第一特征向量序列和第二特征向量序列;利用标准特征向量集对第一特征向量序列和第二特征向量序列进行特征向量替换和机器编码,得到第一编码序列和第二编码序列;提取第一编码序列与第二编码序列的公共子序列;分别在第一编码序列和第二编码序列中对公共子序列进行位置标记;根据位置标记获取第一文本相似度和第二文本相似度。本发明结合自然语言处理方法进行文本相似度检测,可提高检测结果的准确率,并且通过检测结果还能获得相似片段在原始文本中的位置。
主权项:1.一种基于NLP的文本相似度分析方法,其特征在于,包括以下步骤:建立标准词库;对所述标准词库中的每一个词组做文本特征向量化处理,得到标准特征向量集;对第一文本进行文本处理,得到第一特征向量序列;对第二文本进行文本处理,得到第二特征向量序列;所述文本处理包括:文本特征提取、文本特征向量化和特征向量拼接;利用所述标准特征向量集对所述第一特征向量序列进行特征向量替换,得到第一等价特征向量序列;利用所述标准特征向量集对所述第二特征向量序列进行特征向量替换,得到第二等价特征向量序列;对所述第一等价特征向量序列进行机器编码,得到第一编码序列;对所述第二等价特征向量序列进行机器编码,得到第二编码序列;提取所述第一编码序列与所述第二编码序列的公共子序列;分别在所述第一编码序列和所述第二编码序列中对所述公共子序列进行位置标记;根据位置标记获取第一文本相似度和第二文本相似度;所述第一文本相似度=公共子序列长度第一编码序列长度,所述第二文本相似度=公共子序列长度第二编码序列长度。
全文数据:
权利要求:
百度查询: 成都信通信息技术有限公司 一种基于NLP的文本相似度分析方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。