恭喜中电科网络空间安全研究院有限公司权赵恒获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中电科网络空间安全研究院有限公司申请的专利一种大规模源代码相似度检测方法、系统及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114968778B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210569590.4,技术领域涉及:G06F11/3668;该发明授权一种大规模源代码相似度检测方法、系统及装置是由权赵恒;陈剑锋;孙治;韩烨;何达;王一凡设计研发完成,并于2022-05-24向国家知识产权局提交的专利申请。
本一种大规模源代码相似度检测方法、系统及装置在说明书摘要公布了:本申请公开了一种大规模源代码相似度检测方法、系统及装置,该方案应用于大规模源代码相似度检测技术领域。接收用户终端发送的待检测项目并处理得到待检测项目中每个函数块的第一token特征;将第一token特征与token特征库中所有函数块的第二token特征进行比较得到与第一token特征相似的所有第三token特征及对应的相似度。通过代码采集服务采集开源项目,再经过倒排索引算法处理生成token特征库,因而在token特征库中可以基于倒排索引算法实现在海量的数据中的快速查找,进而通过token特征库实现第一token特征与海量的数据的大规模源代码相似度检测。
本发明授权一种大规模源代码相似度检测方法、系统及装置在权利要求书中公布了:1.一种大规模源代码相似度检测方法,其特征在于,包括:接收用户终端发送的待检测项目并处理得到所述待检测项目中每个函数块的第一token特征;将所述第一token特征与token特征库中所有函数块的第二token特征进行比较得到与所述第一token特征相似的所有第三token特征及对应的相似度,所述token特征库由代码采集服务采集的开源项目经过倒排索引算法处理后生成;其中,所述将所述第一token特征与token特征库中所有函数块的第二token特征进行比较得到与所述第一token特征相似的所有第三token特征及对应的相似度,包括:获取所述第一token特征中包含的单词;基于所述倒排索引算法,从所述token特征库中所有函数块的第二token特征中获取所有所述第三token特征,所述第三token特征中包含所述单词的种类的数量大于预设数量;通过TF-IDF算法,从所有所述单词中获取所有关键单词,所述关键单词为在所述第一token特征和所有所述第三token特征的集合中TF-IDF值大于预设TF-IDF值的单词;通过公式S=ab*cosVt,Vi获取第i个所述第三token特征对应的相似度,所述Vt为基于所有所述关键单词在所述第一token特征中的频次构成的第一词频向量,所述Vi为基于所有所述关键单词在第i个所述第三token特征中的频次构成的第二词频向量,cosVt,Vi为所述Vt和所述Vi的余弦相似度,所述a为第i个所述第三token特征中包含的所述关键单词的数量,所述b为所有所述关键单词的总数量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中电科网络空间安全研究院有限公司,其通讯地址为:071000 河北省保定市容城县上坡村上坡街88号101室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。