买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州市刑事科学技术研究所;国家计算机网络与信息安全管理中心广东分中心
摘要:本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
主权项:1.一种诈骗网站的识别方法,其特征在于,包括以下步骤:S1:采集已知诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库,包括:S1.1:获取一批已知的诈骗网站,在终端使用模拟器对诈骗网站进行模拟访问;S1.2:记录诈骗网站的首页相对路径和首页名称;若诈骗网站存在入口页面,则记录入口页面的入口页面名和入口口令;S1.3:获取诈骗网站首页的HTML源代码,利用正则表达式获取诈骗网站首页的HTML源代码中图片元素的相对路径和图片名;S1.4:利用诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及HTML源代码中图片元素的相对路径和图片名构建碰撞数据库;S2:采集官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库;S3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;其中,所述判断待识别网站是否存在入口页面,包括:在终端使用模拟器对待识别网站进行模拟访问,获取待识别网站的HTML源代码;根据官方网站的HTML源代码匹配待识别网站含有的输入框个数、段落数和隐藏文本数,则判断入口页面存在的公式为: 其中为设定的阈值;S4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和或图片特征与比对数据库进行比对,当比对成功,则判断待识别网站为诈骗网站。
全文数据:
权利要求:
百度查询: 广州市刑事科学技术研究所 国家计算机网络与信息安全管理中心广东分中心 一种诈骗网站的识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。