买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国银行股份有限公司
摘要:本发明公开了一种敏感文本监测方法及装置,涉及人工智能技术领域,其中该方法包括:根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;根据待监测文本的文本类别,确定待监测文本是否为敏感文本。本发明可以识别包含禁用词的、不包含禁用词但语义是敏感的敏感文本,可以准确识别敏感文本,降低敏感文本监测过程中的漏检率,提升敏感文本的监测成功率。
主权项:1.一种敏感文本监测方法,其特征在于,包括:根据预先构建的禁用词字典,对待监测文本进行禁用词匹配;在匹配到待监测文本中包含禁用词时,确定待监测文本为敏感文本;在未匹配到待监测文本中包含禁用词时,将待监测文本输入Bert识别模型,输出根据待监测文本的语义信息确定的待监测文本的文本类别;所述Bert识别模型根据历史文本及历史文本的文本类别训练得到;根据待监测文本的文本类别,确定待监测文本是否为敏感文本;其中,根据预先构建的禁用词字典,对待监测文本进行禁用词匹配,包括:根据预先构建的禁用词字典,采用Word2vec识别模型对待监测文本进行禁用词匹配;所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到;其中,搭建初始Word2vec识别模型,收集历史文本及历史文本中的禁用词并构建禁用词序列,进行独热One-hot编码后送入初始Word2vec识别模型,采用Soft-max分类函数进行分类训练和测试,Word2vec识别模型训练完成后,取中间隐藏层的嵌入特征来表示禁用词的特征向量并保存,当待监测文本经过预处理后,One-hot编码送入训练好的Word2vec识别模型,获取其隐藏层的嵌入特征,与提前保存的禁用词的特征向量进行余弦相似度计算,大于阈值则表明该待监测文本含有禁用词,否则不含有禁用词;所述Bert识别模型按如下方式得到:将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集;利用训练集对所述Bert识别模型进行训练;利用测试集对所述Bert识别模型进行测试;其中,在将历史文本及历史文本的文本类别作为样本数据,获得训练集和测试集时,对样本数据以数据增强的方式进行文本类别平衡处理。
全文数据:
权利要求:
百度查询: 中国银行股份有限公司 敏感文本监测方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。