买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广东盈世计算机科技有限公司
摘要:本发明公开了一种基于特征提取的钓鱼邮件检测方法及系统,包括:当检测到电子邮件中含有URL链接时,将URL链接传输至爬虫系统,并接收爬虫系统反馈的落地URL、网页截图和页面源代码;根据预设的特征提取算法,分别对落地URL、网页截图和页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;提取电子邮件的邮件内容特征,并结合URL特征、页面图像特征和源代码特征,生成电子邮件对应的一个特征向量;将特征向量输入至预设的检测模型中,输出电子邮件的钓鱼邮件检测结果。本发明通过对URL链接和电子邮件内容进行多方面的特征提取,得到多类型的特征,并结合多类型特征输出钓鱼邮件检测结果,提高检测的准确性。
主权项:1.一种基于特征提取的钓鱼邮件检测方法,其特征在于,包括:当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统,并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码;根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;提取所述电子邮件的邮件内容特征,并结合所述URL特征、所述页面图像特征和所述源代码特征,生成所述电子邮件对应的一个特征向量;将所述特征向量输入至预设的检测模型中,输出所述电子邮件的钓鱼邮件检测结果;其中,所述根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征,具体为:采用特征工程,对所述落地URL进行特征提取,输出所述URL特征;其中,所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征;对所述网页截图进行解码,获得对应的第一图像,并对所述第一图像进行尺寸调整、格式转换、归一化的预处理,然后输入至预设的图像特征提取模型,输出所述页面图像特征;其中,所述图像特征提取模型是利用第一训练集对预设的初始图像特征提取模型进行训练而获得的,所述第一训练集包括多个完成尺寸调整、格式转换、归一化的预处理的所述第一图像;对所述页面源代码进行分词处理,获得对应的若干个代码分词,并对所有所述代码分词进行编码和转换,获得一个源代码矩阵,并将所述源代码矩阵输入预设的代码特征提取模型,输出所述源代码特征;其中,所述对所述页面源代码进行分词处理,得到对应的若干个代码分词,并对所有所述代码分词进行编码和转换,得到一个源代码矩阵,并将所述源代码矩阵输入预设的代码特征提取模型,输出所述源代码特征,具体为:对所述页面源代码进行分词处理,得到对应的若干个代码分词,并对所有所述代码分词进行编码,获得一个分词集合;通过预设的词嵌入模型,对所述分词集合进行转换,获得对应的所述源代码矩阵;将所述源代码矩阵输入预设的TextCNN网络模型,输出所述源代码特征。
全文数据:
权利要求:
百度查询: 广东盈世计算机科技有限公司 一种基于特征提取的钓鱼邮件检测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。