买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提出了一种基于GAN和Char‑CNN的DGA域名检测方法,用于解决现有技术存在的低随机性DGA域名的检测召回率低的问题,实现步骤为:获取训练样本集和验证样本集;构建生成对抗网络GAN和字符级卷积神经网络Char‑CNN;对生成对抗网络GAN进行迭代训练;获取增广训练集;对字符级卷积神经网络Char‑CNN进行迭代训练;基于训练好的字符级卷积神经网络Char‑CNN`对域名进行检测。本发明利用GAN生成对抗域名用以增广数据集,提升了训练样本集的丰富度,残差块结构降低了检测模型的错误率,提高了低随机性DGA域名的检测召回率,同时Char‑CNN需要计算的超参数少,缩短了检测模型的训练时间。
主权项:1.一种基于GAN和Char-CNN的DGA域名检测方法,其特征在于,包括如下步骤:1获取训练样本集和验证样本集:1a从热门域名集Alexa中顺次选取前L个热门域名组成训练样本集A,L≥600000;1b从良性域名集TRANCO中随机选取M个类别为0的良性域名,并对每个良性域名的类别进行标注,同时从DGA域名集DGArchive中随机选取N个类别为1的DGA域名,并对每个DGA域名的类别进行标注,然后将α*M个良性域名和α*N个DGA域名,以及各域名对应的标签组合成训练样本集B,将其余M-α*M个良性域名和其余N-α*N个DGA域名,以及各域名对应的标签组合成验证样本集,其中,M≥100000,N≥100000,0.6≤α≤0.8;2构建生成对抗网络GAN和字符级卷积神经网络Char-CNN:构建包括生成器网络和判别器网络的生成对抗网络GAN,其中,生成器网络包括全连接层、多个残差块、一维卷积层和激活层;判别器网络包括一维卷积层、多个残差块和全连接层;构建包括嵌入层、多个一维卷积层、多个激活层、多个一维最大池化层、多个残差块、Dropout层和多个全连接层的字符级卷积神经网络Char-CNN;3对生成对抗网络GAN进行迭代训练:3a设迭代次数为q1,最大迭代次数为Q1,Q1≥2000,并令q1=0;3b将随机噪声noise1作为生成器网络的输入进行计算,得到m个对抗域名向量,同时对从训练样本集A中随机选取的m个热门域名进行编码,得到m个热门域名向量,其中,64≤m≤L;3c将m个对抗域名向量以及m个热门域名向量作为判别器网络的输入进行预测,得到概率集合其中,为第i个对抗域名向量来源于训练样本集A的概率,dj为第j个热门域名向量来源于训练样本集A的概率,1≤i≤m,1≤j≤m;3d根据计算生成器网络的损失lossg和判别器网络的损失lossd;3e采用Adam算法,并通过lossg和lossd对生成对抗网络GAN进行训练,再判断q1=Q1是否成立,若是,得到训练好的生成对抗网络GAN`,否则,令q1=q1+1,并执行步骤3b;4获取增广训练集:4a将随机噪声noise2作为训练好的生成对抗网络GAN`的输入进行计算,得到P个对抗域名向量,并对每个对抗域名向量进行解码,得到P个类别为1的对抗域名,其中,20000≤P≤L;4b对每个对抗域名的类别进行标注,并将P个对抗域名以及每个对抗域名的标签添加到训练样本集B中,得到增广训练集;5对字符级卷积神经网络Char-CNN进行迭代训练:5a设迭代次数为q2,最大迭代次数为Q2,Q2≥1000,并令q2=0;5b对从增广训练集中随机选取的n个域名进行编码,得到n个域名向量,并将n个域名向量作为字符级卷积神经网络Char-CNN的输入进行预测,得到概率集合{p1,p2,...,pk,...,pn},其中,pk为第k个域名的类别为1的概率,1≤k≤n,32≤n≤α*M+α*N+P;5c根据{p1,p2,...,pk,...,pn},计算字符级卷积神经网络Char-CNN的损失loss;5d采用RMSprop算法,并通过loss的值对字符级卷积神经网络Char-CNN进行训练,得到训练后的Char-CNN模型Char-CNNq2;5e对从验证样本集中随机选取的c个验证域名进行编码,得到c个验证域名向量,并将c个验证域名向量作为Char-CNNq2的输入进行预测,得到概率集合其中,为第v个验证域名的类别为1的概率,1≤v≤c,32≤c≤M-α*M+N-α*N;5f根据计算c个验证样本的检测准确率Accuracy;5g判断q2=Q2是否成立或Accuracy是否不再增加,若是,得到训练好的字符级卷积神经网络Char-CNN`,否则,令q2=q2+1,并执行步骤5b;6基于训练好的字符级卷积神经网络Char-CNN`对域名进行检测:6a设待检测域名的数量为t,并对每个待检测域名进行编码,得到t个待检测域名向量,t≥1;6b将t个待检测域名向量作为训练好的字符级卷积神经网络Char-CNN`的输入进行预测,得到概率集合并判断是否成立,若是,则第u个待检测域名为DGA域名,否则,第u个待检测域名为非DGA域名,其中,为第u个待检测域名的类别为1的概率,1≤u≤t。
全文数据:
权利要求:
百度查询: 西安电子科技大学 基于GAN和Char-CNN的DGA域名检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。