一种基于机器学习的突发事件敏感词检测方法

导航：龙图腾网> 最新专利技术> 一种基于机器学习的突发事件敏感词检测方法

申请/专利权人：辽宁工程技术大学

申请日：2022-04-01

公开（公告）日：2024-07-05

公开（公告）号：CN114662486B

主分类号：G06F40/284

分类号：G06F40/284;G06F40/242;G06F40/289;G06F18/2415;G06N5/01;G06N3/045;G06N3/0442;G06N3/084;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2024.07.05#授权;2022.07.12#实质审查的生效;2022.06.24#公开

摘要：本发明公开了一种基于机器学习的突发事件敏感词检测方法，包括确定突发事件相关的违规主题词及语句；建立敏感词库与背景词库；利用确定的正样本、强负样本及敏感词库、背景词库训练决策树或贝叶斯分类模型，对敏感词和背景词设定不同权重值；获得待审核文本后，首先将文本去除停用词并分段，后使用TF‑IDF计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分；通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本。本发明提出了解决突发事件的敏感词库建立的有效方法，可以更高效、更精准的建立敏感词库、背景词库，并将建立过程自动化，省去大量人工建库的成本。

主权项：1.一种基于机器学习的突发事件敏感词检测方法，其特征在于，包括以下步骤：S1：确定突发事件相关的违规主题词及语句；S2：建立敏感词库与背景词库；S3：利用步骤S1中确定的正样本、强负样本及步骤S2中确定的敏感词库、背景词库训练决策树或贝叶斯分类模型，对敏感词和背景词设定不同权重值；S4：获得待审核文本后，首先将文本去除停用词并分段，后使用TF-IDF计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分，利用在步骤S3中训练得出的决策树或贝叶斯分类模型通过计算敏感词和背景词的词频、在每段中的分段词频以及与文章关联度得分获得文本敏感概率；S5：通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本；S6：将审核得出的敏感文本库、非敏感文本库、及无关样本库反馈回步骤S2得到新的敏感词与背景词以扩充敏感词库与背景词库，且将敏感文本库与非敏感文本库反馈回步骤S3继续优化模型，以进一步提高精确度；所述步骤S1中，通过互联网搜索相关文档并通过人工审核将相关文档确定为正样本、强负样本、无关样本与背景样本，将样本分类加入敏感样本库、非敏感样本库、无关样本库和背景样本库；所述步骤S2具体包括以下步骤：步骤S2.1：利用BiGRU-CRF算法对正样本，强负样本和无关样本进行分词、去除停用词操作，再对样本进行分段后进行关键词抽取，并利用TF-IDF算法对所抽取的关键词进行分段式关联度打分；在正样本内每段平均分超过第一阈值，无关样本内每段平均分不超过第二阈值，负样本内每段平均分低于第三阈值的关键词定义为敏感词并加入敏感词库；步骤S2.2：利用BiGRU-CRF算法对背景样本进行分词、去除停用词操作，再对样本进行分段后进行关键词抽，并利用TF-IDF算法对所抽取的关键词进行分段式打分，平均分数高于第四阈值的关键词定义为背景词并加入背景词库；所述步骤S5具体包括以下步骤：步骤S5.1：若文本敏感概率大于第一敏感阈值，则将文本判定为敏感文本，并将文本加入敏感文本库；步骤S5.2：若文本敏感概率小于第二敏感阈值，则将文本判定为非敏感文本，并将文本加入非敏感文本库；步骤S5.3：若文本敏感概率小于第一敏感阈值且大于第二敏感阈值，则将文本判定为待定文本，并加入待定文本库，交由人工审核；人工审核判定为敏感文本的，加入敏感文本库，人工审核判定为非敏感文本的，加入非敏感文本库，人工审核判定为无关样本或背景样本的，加入无关文本库或背景文本库。

全文数据：

权利要求：

百度查询：辽宁工程技术大学一种基于机器学习的突发事件敏感词检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：虚拟会场中跨语音区无缝对话的方法、系统及存储介质

下一篇：一种六面铣型一体机

相关技术

虚拟会场中跨语音区无缝对话的方法、系统及存储介质

一种六面铣型一体机

一种金属钒的制备方法及金属钒

线束加工输送装置

母座连接器、电子设备和母座连接器的制作方法

一种用于Chiplets器件互连可靠性快速评估的有限元仿真方法

一种单组份水性丙烯酸涂料及其制备方法

用于驱动器载体的手柄的闩锁组件

一种三站式光学玻璃镜片模压成型装置

气缸盖加工用的焊接工装

带隙基准电路及芯片

一种永磁直流无刷电动机加工装置

事件相关技术

基于图文信息交互的事件检测方法和装置_中国工商银行股份有限公司_202410600948.4

燃气告警事件的处理方法和系统_易联云计算(杭州)有限责任公司_202410886206.2

事件触发的交叉链路干扰测量报告_诺基亚技术有限公司_202410049005.7

一种热点事件识别方法和系统_迪爱斯信息技术股份有限公司_202110894868.0

一种电力事件异常检测与响应方法_国网吉林省电力有限公司电力科学研究院_202410571713.7

一种后厨监控环境的异常事件检测方法_河南省公平竞争审查事务中心_202410487963.2

散射事件筛选方法、设备、PET系统、电子装置和存储介质_武汉联影生命科学仪器有限公司_202111354919.7

一种排水洞入侵事件监测预警方法_三峡金沙江川云水电开发有限公司_202410607259.6

基于自然语言处理的电力线路故障事件研判方法及系统_南昌科晨电力试验研究有限公司_202410865742.4

一种时空因素敏感的社交媒体事件检测方法_天翼云科技有限公司_202410527604.5

检测相关技术

检测装置_武汉海微科技股份有限公司_202323214951.2

检测系统_爱沛股份有限公司_201980089113.4

检测装置_富联裕展科技(深圳)有限公司_202323221218.3

检测装置_富鼎电子科技(嘉善)有限公司_202111271637.0

检测装置_深圳思谋信息科技有限公司_202323291042.9

流速流向检测装置、流速检测方法和流向检测方法_北京瑞科同创科技股份有限公司_202310622072.9

异常检测装置、异常检测服务器以及异常检测方法_发那科株式会社_202010432634.X

显示面板检测设备的故障检测方法和检测装置_华兴源创(成都)科技有限公司_202010295215.6

电缆线芯检测系统及检测方法_北京现代汽车有限公司_202410345376.X

一种水质检测系统及检测方法_山东省地质矿产勘查开发局第七地质大队(山东省第七地质矿产勘查院)_202210223304.9

敏感词相关技术

一种行程敏感的汽车减振器_上海汇众萨克斯减振器有限公司_202322752103.0

文本的敏感信息识别方法及装置_杭州迪普科技股份有限公司_202410493785.4

一种泛品牌词的挖掘方法及装置_北京搜狗科技发展有限公司_201811043835.X

基于多模态内容的关键词推荐系统及方法_中国人民解放军海军工程大学_202210088492.9

一种医疗数据阳性关键词快速标注方法_山东浪潮智慧医疗科技有限公司_202410643333.X

医学关键词的入库和诊断方法及存储介质_武汉大学_202110162808.X

提示词评价方法、装置、电子设备及存储介质_百度在线网络技术(北京)有限公司_202410480062.0

大模型提示词优化方法、装置、设备及存储介质_佳都科技集团股份有限公司_202410301185.3

一种时空因素敏感的社交媒体事件检测方法_天翼云科技有限公司_202410527604.5

一种敏感信息防侵入式攻击的密码芯片_南方电网科学研究院有限责任公司_201910667312.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于机器学习的突发事件敏感词检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务