买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明属于网络安全技术领域,特别涉及一种基于自然语言处理的程序语义混淆方法及系统,首先,从流程性描述文本语料中提取用于描述程序执行过程的文本序列,并构建具有诱导和模糊功能的混淆语料素材库;然后,对目标程序代码片段进行向量化处理,并依据语义信息从混淆语料素材库中选取与目标程序代码片段不相关的文本序列作为提示输出类代码,融合到目标程序代码片段位置。本发明将具有诱导性、模糊性的语义混淆语料融入到目标代码中,生成具备抗语义分析能力的混淆代码,能够误导逆向分析人员对程序真实功能的理解,加大代码理解难度,可有效防止合法软件被盗版或恶意篡改,具有较好的应用前景。
主权项:1.一种基于自然语言处理的程序语义混淆方法,其特征在于,包含如下内容:从流程性描述文本语料中提取用于描述程序执行过程的文本序列,并构建具有诱导和模糊功能的混淆语料素材库,所述流程性描述文本语料至少包含协议描述RFC文档及算法描述文档,利用自然语言处理技术抽取不同协议描述RFC文档和不同算法描述文档中的文本摘要,利用抽取的文本摘要来构建混淆语料素材库;其中,抽取文本摘要的过程包含:首先,利用图排序TextRank算法过滤描述文档中长文本信息冗余句子,提取关键句;然后,利用预训练BERT模型将文本摘要建模为序列标注任务,输出文档摘要;利用图排序TextRank算法过滤描述文档句子中,首先,构建有向结构图,以输入的长文本句子单元作为图节点,将相似度大于预设阈值节点进行连接,并利用节点相似度来计算节点之间边的权重;然后,计算有向结构图中每个节点得分,依据得分大小选取得分最高的若干句子单元作为获取摘要的关键句;利用预训练BERT模型将文本摘要建模中,首先,将关键句的每个句子前后均插入标记符,并对文本进行语义特征提取;然后,将提取的语义特征输入预训练的BERT模型,利用BERT模型构建描述文本语义特征的字向量,在每一个标记符位置对应输出句子单元向量表示;并利用全连接层对向量表示进行线性变换,通过Sigmoid激活函数进行二分类和序列标注;对目标程序代码片段进行向量化处理,并依据语义信息从混淆语料素材库中选取与目标程序代码片段不相关的文本序列作为提示输出类代码,融合到目标程序代码片段位置,其中,将混淆语料素材库中文本序列与目标程序代码融合中,首先,利用自然语言处理技术对目标程序代码片段进行向量化处理,其中,向量化处理的内容至少包含目标程序代码中的模块、函数、基本块和指令;然后,利用asm2vec模型分析目标程序代码片段语义信息,并结合代码插桩技术在编译层将混合语料素材库中文本序列与目标程序代码片段进行融合编译;且在融合过程中,将目标程序代码编译成中间语言形态,从不同粒度对代码进行切片处理,将代码片段的语义信息与混合语料素材库中文本序列语义相似性进行比较,构建代码片段与混合语料素材库之间的相关性矩阵,依据语义相似性或语义差异性将文本序列与目标程序代码片段插桩融合,并对融合混淆后的目标代码进行混合编译。
全文数据:
权利要求:
百度查询: 中国人民解放军网络空间部队信息工程大学 基于自然语言处理的程序语义混淆方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。