首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于机器学习的突发事件敏感词检测方法 

申请/专利权人:辽宁工程技术大学

申请日:2022-04-01

公开(公告)日:2024-07-05

公开(公告)号:CN114662486B

主分类号:G06F40/284

分类号:G06F40/284;G06F40/242;G06F40/289;G06F18/2415;G06N5/01;G06N3/045;G06N3/0442;G06N3/084;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2022.07.12#实质审查的生效;2022.06.24#公开

摘要:本发明公开了一种基于机器学习的突发事件敏感词检测方法,包括确定突发事件相关的违规主题词及语句;建立敏感词库与背景词库;利用确定的正样本、强负样本及敏感词库、背景词库训练决策树或贝叶斯分类模型,对敏感词和背景词设定不同权重值;获得待审核文本后,首先将文本去除停用词并分段,后使用TF‑IDF计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分;通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本。本发明提出了解决突发事件的敏感词库建立的有效方法,可以更高效、更精准的建立敏感词库、背景词库,并将建立过程自动化,省去大量人工建库的成本。

主权项:1.一种基于机器学习的突发事件敏感词检测方法,其特征在于,包括以下步骤:S1:确定突发事件相关的违规主题词及语句;S2:建立敏感词库与背景词库;S3:利用步骤S1中确定的正样本、强负样本及步骤S2中确定的敏感词库、背景词库训练决策树或贝叶斯分类模型,对敏感词和背景词设定不同权重值;S4:获得待审核文本后,首先将文本去除停用词并分段,后使用TF-IDF计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分,利用在步骤S3中训练得出的决策树或贝叶斯分类模型通过计算敏感词和背景词的词频、在每段中的分段词频以及与文章关联度得分获得文本敏感概率;S5:通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本;S6:将审核得出的敏感文本库、非敏感文本库、及无关样本库反馈回步骤S2得到新的敏感词与背景词以扩充敏感词库与背景词库,且将敏感文本库与非敏感文本库反馈回步骤S3继续优化模型,以进一步提高精确度;所述步骤S1中,通过互联网搜索相关文档并通过人工审核将相关文档确定为正样本、强负样本、无关样本与背景样本,将样本分类加入敏感样本库、非敏感样本库、无关样本库和背景样本库;所述步骤S2具体包括以下步骤:步骤S2.1:利用BiGRU-CRF算法对正样本,强负样本和无关样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽取,并利用TF-IDF算法对所抽取的关键词进行分段式关联度打分;在正样本内每段平均分超过第一阈值,无关样本内每段平均分不超过第二阈值,负样本内每段平均分低于第三阈值的关键词定义为敏感词并加入敏感词库;步骤S2.2:利用BiGRU-CRF算法对背景样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽,并利用TF-IDF算法对所抽取的关键词进行分段式打分,平均分数高于第四阈值的关键词定义为背景词并加入背景词库;所述步骤S5具体包括以下步骤:步骤S5.1:若文本敏感概率大于第一敏感阈值,则将文本判定为敏感文本,并将文本加入敏感文本库;步骤S5.2:若文本敏感概率小于第二敏感阈值,则将文本判定为非敏感文本,并将文本加入非敏感文本库;步骤S5.3:若文本敏感概率小于第一敏感阈值且大于第二敏感阈值,则将文本判定为待定文本,并加入待定文本库,交由人工审核;人工审核判定为敏感文本的,加入敏感文本库,人工审核判定为非敏感文本的,加入非敏感文本库,人工审核判定为无关样本或背景样本的,加入无关文本库或背景文本库。

全文数据:

权利要求:

百度查询: 辽宁工程技术大学 一种基于机器学习的突发事件敏感词检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。