首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于文本和图像多模态色情和赌博域名自动检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学(威海)

摘要:本发明提供一种基于文本和图像多模态色情和赌博域名自动检测方法,其针对色情、赌博网页的识别,利用深度学习和统计学习相结合的方法来实现对网页数据进行特征抽取,使用长距离多头自注意力的视觉语言模型的方法对网页进行识别,其针对网页所显示的内容丰富且包含大量图片与超长文本的特点进行多模态信息融合,从网页文本和网页截图两个维度对网页进行特征抽取。本发明可广泛用于基于文本和图像多模态色情和赌博域名自动检测中。

主权项:1.一种基于文本和图像多模态色情和赌博域名自动检测方法,其特征是:包括以下步骤:步骤一:训练数据获取;以国内多个知名导航网站为起点,使用爬虫爬取各种类型的URL对应的网页文本与网页快照作为数据集;步骤二:模型训练与测试;构建适用于含有长文本和图像特征的网页数据的深度学习模型,通过掩蔽语言模型MLM和图文匹配ITM的预训练任务进行训练并通过下游分类任务微调,使模型达到识别色情和赌博网页准确率召回率均超过99%的性能;步骤三:系统部署进行DNS不良域名阻断;建立服务器与DNS服务器的通信进行旁路监听,获取用户的DNS请求日志中的域名信息,根据域名以及域名对应的URL进行判断,阻断含有色情、赌博域名的恶意DNS请求;所述步骤二包括以下步骤:步骤2-1:构建基于长距离多头自注意力的视觉语言模型,设置掩蔽语言模型MLM和图文匹配ITM的预训练任务;步骤2-2:人工标注色情、赌博、合规三种类型的数据分别为10万、10万、20万,以5:3:2的比例分为训练集、验证集和测试集,其中验证集和测试集中的数据不参与预训练;所述步骤三包括以下步骤:步骤3-1:在服务器上部署训练的模型并与DNS服务器建立通讯,并获取用户的DNS请求日志抽取域名,匹配黑白名单,若没有匹配结果,通过爬取网页信息时使用了无头浏览器进行网页内容的爬取,得到的文本、网页快照信息即为用户正常访问时加载的内容;步骤3-2:分别从网站源代码和网站截图中提取文本和图像特征;步骤3-3:从HTML代码中提取出文本数据,删除所有HTML标签,去除文本中的干扰信息,提取出来文本之后,进行分词,将文本输入转换成模型可以接收的输入,然后完成解码,在解码时,模型首先产生一个wordpiece序列,然后被转换成相应的单词序列,WordPiece的实现目标是让合并子词后的句子的似然值变化小于一定值,按照以下公式1和公式2计算似然值:公式1:公式2:其中,公式中,S表示由n个子词组成的句子,ti表示子词,公式1表示了句子S的似然值,公式2表示了把相邻位置的x和y两个子词进行合并为子词z,句子似然值的变化;步骤3-4:对文本进行分词并删除停止词;使用bert-base-chinese的tokenizer对输入文本进行编码,并压缩处理网页快照,输入模型进行训练;步骤3-5:将网页快照输入两层卷积和包含两个残差块的网络中,其中每个残差块里有2个有相同输出通道数的3×3卷积层;每个卷积层后接一个批量归一化层和ReLU激活函数;对于快照I∈RC*H1*W1,采用残差网络进行预处理为I∈RC*H2*W2,将I分割为分辨率P*P图片块并展平为V∈RN*P*P*C,使用RP*P*C*H的全连接层对齐文本嵌入的维度,在尾部加入一个使用词嵌入矩阵T∈RN*H转化为1*H向量的CLS,加上可学习的位置嵌入参数Pv∈RN+1*H,最后v”∈RN+1*H;步骤3-6:使用bert-base-chinese的tokenizer对输入文本进行编码;对于输入文本t∈RL*N,在文本头部加入CLS,文本尾部加入SEP,并使用一个词嵌入矩阵T∈RN*H,将t转化为t’∈RL+2*H,并加上可学习的位置嵌参数Pt∈RL+2*H,最后t”∈RL+2*H;步骤3-7:在上述文本和图像嵌入矩阵中加入相应的模态类别向量并将二者串联成输入为长距离多头自注意力Transformer编码器的z∈RL+N+3*H;其中H大小为768,层深度为4,P为32,MLP大小为3072,注意力机制头的数量为4;快照图像格式为3×1920×9066,即C为3,H1为1920,W1为9066;经过残差网络处理后,生成3×4048×1798是一个图像,其中C为3,H2为448,W2为1798;块数n为2352,块分辨率为32×32;全连接层输出的第二维度h为768;步骤3-8:将上述网络提取的网页文本和图像特征输入到Cat-Classfication-FC层中进行色情、赌博网页的分类;为后续对色情、赌博的域名的DNS请求进行阻断、抢答,更新DNS记录黑白名单提供数据支撑;对判定为色情、赌博的域名的DNS请求进行阻断、抢答;步骤3-9:构造DNS响应报文,使得此恶意域名的解析请求被指向内部的告警网页,从而完成对于恶意流量的阻断,并更新黑白名单,提高再次阻断的速度。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学(威海) 基于文本和图像多模态色情和赌博域名自动检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。