首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向科技项目文档的查重及自动批注方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州量知数据科技有限公司

摘要:本发明公开了一种面向科技项目文档的查重及自动批注方法及系统,属于自然语言处理领域。本发明的查重及自动批注方法中,针对科技项目文档的快速查重检测问题,基于Jaccard相似度算法提出了一种改进的文档段落相似度和文档整体相似度计算方法,算法综合考虑了全文内容、相似片段连续程度、段落关键词权重等信息,检测结果更客观有效。另外,本发明基于相似度对比算法提供了一种针对科技项目文档的自动查重系统,系统同时包含了文档解析和自动批注功能模块,能够有效辅助审核人员快速定位重复片段及比对信息,提高审核人员工作效率。对比以往的人工阅读对比检测方法,提高了检测相似片段的覆盖度和检测及时性,显著降低检测结果等待时间,提升查重效率。

主权项:1.一种面向科技项目文档的查重及自动批注方法,其特征在于,包括:S1、对待检测项目文档进行解析,获得每个项目文档的段落文本;S2、对待检测项目文档中的各段落文本分别进行分词处理,得到各段落的分词特征;S3、从历史项目数据库中获取所有历史项目文档的所有段落作为查重范围,每个历史项目文档预先通过所述解析处理和所述分词处理得到各段落对应的段落文本和分词特征;S4、对待检测项目文档的全文以及每个段落分别进行关键词抽取,获得全文关键词、每个段落的段落关键词以及各关键词的权重;再针对每个段落,将该段落的段落关键词、全文关键词以及各关键词的权重构成该段落对应的关键词字典;遍历待检测项目文档中的每个待检测段落,生成关键词匹配检索所需的数据库检索语句,在数据库中通过倒排索引策略检索得到所述查重范围内与每个待检测段落的关键词匹配程度最高的多个相似段落,并记录每个相似段落所属的历史项目文档作为相似项目文档;所有待检测段落的相似项目文档构成相似项目库;S5、将待检测项目文档的每个待检测段落分别与对应的每个相似段落两两配对,基于上下文信息改进的Jaccard的段落相似度对比方法,综合考虑相似片段连续程度、段落关键词权重和全文关键词权重,计算每一组配对段落之间的段落相似度;然后针对每个待检测段落从对应的所有相似段落中选出最相似段落;S6、遍历所述相似项目库中的每个相似项目文档,将当前遍历的相似项目文档中的段落与待检测项目文档中的待检测段落两两配对,基于所述上下文信息改进的Jaccard的段落相似度对比方法,计算得到每一组配对段落之间的段落相似度,得到每个待检测段落的最相似段落以及其最大段落相似度;再以段落位置权重和段落长度权重同时作为加权信息,将所有待检测段落的最大段落相似度进行加权求和,获得当前遍历的相似项目文档与待检测项目文档之间的文档整体相似度,并确定待检测项目文档的最相似项目文档;S7、针对待检测项目文档,基于段落级别和文档级别的相似比对结果,按照预设的批注形式和批注内容,在文档中生成可视化的自动批注。

全文数据:

权利要求:

百度查询: 杭州量知数据科技有限公司 一种面向科技项目文档的查重及自动批注方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。