首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于文本特征提取技术的论文查重系统及方法 

申请/专利权人:广东万方数据信息科技有限公司

申请日:2024-04-12

公开(公告)日:2024-06-28

公开(公告)号:CN118260385A

主分类号:G06F16/33

分类号:G06F16/33;G06F16/335;G06F16/31;G06F16/35;G06F40/284;G06N20/10;G06N3/006

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明公开了一种基于文本特征提取技术的论文查重系统及方法,涉及数据处理技术领域,本发明通过对待查重论文进行分词操作,从而可以对待查重论文中的信息进行分割,根据这些信息在资料库文献集中进行查询,从而使得查询得到的文献与待查重论文在内容上有一定的相似性,对论文分词集中的每一个分词的权重进行确定,使得计算得到的重复度更加的准确,再进一步进行分析和判定,对待查重论文以及资料库文献集中的各个论文从领域方面、解决的问题方面以及解决的方式方面进行深度的分析,当这三个方面均与其他的论文重复时,则判定待查重论文重复了,否则,待查重论文未重复,提高了查重的准确性。

主权项:1.一种基于文本特征提取技术的论文查重方法,其特征在于,包括以下步骤:S1、输入待查重论文,对所述待查重论文进行分词操作,得到论文分词集;设定资料库文献集,根据所述论文分词集在资料库进行查询,得到所述资料库文献集中每个文献包含的在所述论文分词集中的分词,构成文献包含分词矩阵;S2、根据所述论文分词集设定对应分词的权重值,得到分词权重集,根据所述分词权重集得到文献包含分词权重矩阵,根据所述文献包含分词权重矩阵计算文献与待查重论文之间的重复度,得到文献重复度集;设定重复度阈值,根据所述文献重复度集与重复度阈值进行比较分析,当所述文献重复度集中存在文献重复度大于或者等于重复度阈值时,则判定所述待查重论文与资料库文献集中的论文有重复;否则,构建初始领域SVM模型、初始问题SVM模型以及初始解决方式SVM模型,并进行一次优化和二次优化,得到二次优化后的领域SVM模型、二次优化后的问题SVM模型和二次优化后的解决方式SVM模型;S3、采用所述二次优化后的领域SVM模型、二次优化后的问题SVM模型和二次优化后的解决方式SVM模型对待查重论文和资料库文献集进行分类,分别得到第一分类结果集和第二分类结果集;S4、将所述第一分类结果集与第二分类结果集进行对比,根据对比结果判定待查重论文是否重复。

全文数据:

权利要求:

百度查询: 广东万方数据信息科技有限公司 一种基于文本特征提取技术的论文查重系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。