恭喜中国科学院信息工程研究所许丽丽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国科学院信息工程研究所申请的专利一种基于机器学习的编译相关文件识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114047917B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111113829.9,技术领域涉及:G06F8/41;该发明授权一种基于机器学习的编译相关文件识别方法及装置是由许丽丽;班固;肖扬;袁子牧;霍玮设计研发完成,并于2021-09-23向国家知识产权局提交的专利申请。
本一种基于机器学习的编译相关文件识别方法及装置在说明书摘要公布了:本发明公开了一种基于机器学习的编译相关文件识别方法及装置,包括:基于版本的向量表示,对一开源库的所有版本进行聚类;对每一类中的各版本进行编译,并基于被成功编译版本的相应源文件信息进行机器学习训练,分别获取各类的文件识别模型;利用所述文件识别模型,对未被成功编译版本的每一源文件进行分类,获取该未被成功编译版本的编译相关文件列表。本发明基于已编译的开源库版本中的编译相关文件,自动化且较为准确地预测与该版本源文件相近的版本中编译相关文件,提高了编译相关文件识别能力。
本发明授权一种基于机器学习的编译相关文件识别方法及装置在权利要求书中公布了:1.一种基于机器学习的编译相关文件识别方法,其步骤包括:1给定一开源库,该开源库有多个版本,每个开源库版本中包含相应的源文件,遍历该开源库各版本中的所有源文件,使用源文件的文件名称按照字母表的顺序进行升序排序后组成词汇表;2根据所述词汇表与每一版本中所有源文件的名称,生成该版本的向量表示;3基于版本的向量表示,采用聚类算法对该开源库的所有版本进行聚类,获取编译相关文件近似的版本集合;4对每一类中的各版本进行编译,并基于被成功编译版本的相应源文件信息进行机器学习训练,分别获取各类的文件识别模型;其中,被成功编译的版本通过记录编译过程日志、提取其中实际参与编译的源文件列表获得,源文件信息包括:源文件文件名和源文件文件名所在的文件夹,文件识别模型为决策树;5利用所述文件识别模型,对未被成功编译版本的每一源文件进行分类,判断该源文件是否为编译相关文件,获取该未被成功编译版本的编译相关文件列表;其中,编译相关文件列表包括:被编译文件名和被编译文件名称所在的文件夹。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院信息工程研究所,其通讯地址为:100093 北京市海淀区闵庄路甲89号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。