一种基于多特征融合的恶意代码作者识别与代码侵权检测方法

导航：龙图腾网> 最新专利技术> 一种基于多特征融合的恶意代码作者识别与代码侵权检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：四川大学;王鹏超

摘要：本发明公开了一种保护代码著作权、溯源恶意代码的作者的方法。在软件市场蓬勃发展的当下，不法分子编写恶意代码并传播将会对信息安全造成严重威胁。为此，本小组在深思熟虑后，决定采用构建多模态特征融合的方式来溯源代码作者，思路如下：1数据集的建立：对互联网上的代码进行爬取及处理；2多模态代码分析模型：通过子段哈希值、tf‑idf、语法树、树型LSTM等技术提取代码的多项特征，最后将其池化融合；3数据库查询算法：构建数据库，并选取ANN搜索算法进行检索，我们提出了一种高效动态维护IVF‑PQ的聚类的算法以及另一种算法。我们在研究过程中以实际需求为导向，相关知识成果产出将在多个实际场景发挥重要作用。

主权项：1.一种基于多特征融合的恶意代码作者识别与代码侵权检测方法，其特征在于，包括以下步骤：S1：数据收集、处理与标注：采用Python爬虫技术，通过构建代理IP池、利用Selenium模拟真实浏览器等方式绕过Codeforces的反爬机制，同时在AtCoder和牛客网上模拟用户登录获取API接口权限，从而从三个平台抓取并整合编译通过的活跃用户代码提交记录作为实验数据集。S2：代码特征提取与特征融合：针对代码作者识别问题，我们系统地从用词特征、排版特征和句法特征三个维度进行深入分析与抽取。在用词特征提取过程中，我们首先依照各类编程规范进行分词处理，包括但不限于基于驼峰命名法、蛇形命名法等原则划分标识符，并在必要时采用固定长度子串提取以兼顾词汇统计和排版偏好，如空格、换行符使用习惯；同时，我们对关键词频次进行统计，并采用tf-idf算法计算稀有标识符命名的重要性，以及考虑注释的使用频率。在排版特征提取上，我们通过识别和区分代码中的复用模块即“轮子”和独特编写部分，利用哈希值比较复用模块的相似性，同时对独特编写部分进行行代码长度统计分析，并通过检测绝对与相对缩进规律探寻作者一致的缩进风格以及空行使用习惯。至于句法特征，我们借助抽象语法树AST构建和结构递归神经网络RecursiveNeuralNetwork,RvNN技术，特别是经过改进的长短期记忆网络LSTM和基于子树输出和的长短期记忆网络Child-sumTree-LSTM架构，以递归方式捕捉和转化代码的层次结构和语法联系，形成具有鲁棒性的句法特征表示。最后，我们通过双线性池化等特征融合技术，将提取出的多元特征高效地整合在一起，为后续的代码作者识别模型提供高质量的输入特征集。S3：数据库查询：在一个利用用户编码特征向量构建的数据库中，我们面对的是基于k-最近邻查询来预测每段代码可能的前k个作者的问题。为解决高维数据的高效搜索难题，我们运用了近似最近邻搜索技术，并特别介绍了IVF-PQ算法，该算法结合了聚类和量化策略以提高搜索速度和保持一定准确率：首先通过聚类划分数据集并设置nprobe值减少搜索范围，随后借助PQ技术对各聚类内部的向量进行分块量化以实现高效存储和检索；针对数据库的动态插入需求，我们提出了优化的IVF-PQ维护方案，即在插入新用户特征时，仅做必要的聚类和量化更新，并在聚类点数超标时通过重新聚类避免算法性能下滑；同时，我们还设计了一种启发式方法，通过在超空间中生成单位向量并在红黑树中维护投影值排序，利用多树查询合并结果并进行排序去重以获取近似最近邻输出。

全文数据：

权利要求：

百度查询：四川大学王鹏超一种基于多特征融合的恶意代码作者识别与代码侵权检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电网高影响天气特征与模式识别方法及系统

下一篇：电信网元实时处理方法、装置、设备、介质及程序产品

相关技术

一种电网高影响天气特征与模式识别方法及系统

电信网元实时处理方法、装置、设备、介质及程序产品

大语言模型生成SQL查询语句中的数据权限控制方法及设备

半导体用黏合膜、切割晶粒接合一体型膜及半导体装置的制造方法

一种水库运行管理与安全评价系统及安全评价方法

光检测装置

一种沙门氏菌预富集培养基及其制备方法和在即食调味品中的应用

一种基于机场场面空地互联的虚拟交通灯系统

为牵引电池充电的充电电路和方法、电动车辆

一种商用电动汽车充电效率提升的装置及方法

绿色重楼病虫害防治方法

印制电路板、器件焊接检测方法、装置及电子设备

代码相关技术

前端代码生成方法和装置_北京沃东天骏信息技术有限公司_202410980680.1

代码审查方法、装置、设备及可读存储介质_东风汽车集团股份有限公司_202411145532.4

恶意代码图像分类方法和系统_中国人民解放军空军工程大学_202411003652.0

一种代码清理方法、装置、设备和介质_北京字跳网络技术有限公司_202310544933.6

代码定位方法、装置、设备以及存储介质_北京六方云信息技术有限公司_202411419301.8

一种代码修改方法及计算设备_北京车智赢科技有限公司_202410939950.4

代码调试方法、装置、设备、介质及程序产品_中国建设银行股份有限公司_202411066498.1

一种基于UI设计图的前端代码生成方法及系统_北京中睿天下信息技术有限公司_202411213047.6

一种基于提示微调的大型语言模型代码翻译方法_山西清众科技股份有限公司_202410667808.9

应用于程序代码的检测方法、装置、设备与计算机介质_北京积加科技有限公司_202411035654.8

识别相关技术

手势识别系统、识别方法、手势识别传感器及其制备方法_合肥工业大学_202410950479.9

识别tau的抗体_普罗塞纳生物科学有限公司_202080018265.8

识别TAU的抗体_普罗塞纳生物科学有限公司_201880033060.X

换向器识别装置_深圳市金岷江智能装备有限公司_202323543440.5

车外环境识别装置_株式会社斯巴鲁_201910084471.8

人员重识别系统_北京格灵深瞳信息技术股份有限公司_202323148264.5

目标识别控制装置以及目标识别方法_JVC建伍株式会社_202180017647.3

图像识别模型的处理方法、皮肤图像识别方法、装置_北京京东拓先科技有限公司_202310545449.5

一种语音识别方法、语音识别装置、电子设备及存储介质_中移(苏州)软件技术有限公司_202010700307.8

一种基于图像识别的溶液流量自动识别装置_中北大学_202410943573.1

作者相关技术

训练神经网络系统来预测交互的动作者的行为_罗伯特·博世有限公司_202410574565.4

作者识别模型的训练方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202310495352.8

车辆操作者困倦警报_通用汽车环球科技运作有限责任公司_202311390157.5

一种基于操作者隐私保护的塔吊运行预警系统_中铁北京工程局集团北京有限公司_202410724310.1

一种推荐架构下的基于对比学习调优的论文作者消歧方法_浙江大学_202210060374.7

一种论文作者姓名消歧的方法、设备及储存介质_浙江理工大学_202210446111.X

在线文档作者的画像更新方法及装置_北京明略软件系统有限公司_202110880729.2

一种作者流动数据驱动的科研表现测量方法_南京大学_202410700367.8

一种基于多特征融合的恶意代码作者识别与代码侵权检测方法_四川大学_202410452888.6

与加工设备的操作者交互的方法以及系统_罗伯特·博世有限公司_202080090505.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多特征融合的恶意代码作者识别与代码侵权检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务