买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:合肥大多数信息科技有限公司
摘要:本发明公开了一种基于中文分词识别技术的垃圾信息剔除系统及方法,涉及垃圾信息识别技术领域,解决了现有技术方案中对垃圾短信识别率不高且工作效率低下的技术问题;本发明先对智能终端接收到的短信根据短信发送的号码进行初步筛选获取初筛短信,然后通过中分分词技术提取短信中的验证关键词,将验证关键词与敏感词库进行匹配,最后在通过智能模型来判定;设置三重检测,有助于提高垃圾信息识别的准确率和本发明的工作效率;本发明设置了短信预处理模块,该设置有助于提高本发明中垃圾短信的剔除效率;本发明设置了短信分析模块,该设置有助于提高垃圾短信的识别率,保证智能终端不受垃圾短信的侵扰。
主权项:1.一种基于中文分词识别技术的垃圾信息剔除系统,其特征在于,包括处理器、IP分析模块、信息发布模块、数据存储模块、短信预处理模块、智能模型模块和短信分析模块;所述短信预处理模块用于对智能终端接收到的短信进行预处理获取初筛短信,并通过处理器将初筛短信发送至短信分析模块;所述短信分析模块依次通过智能模型和关键词分析技术对初筛短信进行分析,并根据分析结果筛选出垃圾短信,同时通过处理器将IP分析信号发送至IP分析模块;所述智能模型模块用于获取智能模型;所述IP分析模块用于分析垃圾短信的IP地址;所述短信预处理模块用于对短信进行初步筛选,包括:智能终端接收到短信之后发送至短信预处理模块;所述智能终端包括智能手机和平板电脑;所述短信预处理模块接收到短信之后获取短信的发送号码,通过处理器获取存储模块中存储的短信标记数据库;将发送号码与短信数据库中的号码进行匹配,当匹配到结果时,则发送号码对应的短信拦截,并自动从智能终端中剔除;当匹配不到结果时,将短信标记为初筛短信,通过处理器将初筛短信和短信分析信号发送至短信分析模块;通过处理器将短信分析信号的发送记录发送至数据存储模块进行存储;短信标记数据库通过第三方平台生成,包括:通过处理器生成空的短信标记库;通过第三方平台获取骚扰号码统计表;第三方平台包括中国移动、中国联通和中国电信,骚扰号码统计表中的号码为第三方平台用户标记为骚扰电话的号码;获取骚扰号码统计表中号码的标记次数,并将标记为次数标记为BC;当标记次数BCL1时,则将标记次数对应的号码存入短信标记库;其中L1为预设标记次数阈值;通过处理器将短信标记库发送至数据存储模块进行存储;所述短信分析模块用于分析初选短信,包括:通过处理器获取数据存储模块中的敏感词库;所述敏感词库中至少包括一种敏感词类型的关键词,所述敏感词类型包括毒品和涉黄;通过中文分词技术对初筛短信进行提取获取验证关键词,将验证关键词与敏感词库中的关键词进行匹配,当验证关键词在敏感词库中匹配到结果时,则判定初筛为垃圾短信,并自动从智能终端中剔除;当验证关键词在敏感词库中匹配不到结果时,则获取数据存储模块中的智能模型;将初筛短信转换成输入数组并标记为验证输入数组,将验证输入数组输入到智能模型中对初筛短信进行判断;当初筛短信被判定为垃圾短信时,则自动从智能终端中剔除;所述智能模型模块用于训练神经网络模型获取智能模型,包括:通过互联网获取垃圾短信数据库,并对垃圾短信进行编号;其中,编号为5位数字,编号中的第一位代表垃圾短信的排列规则,第二位和第三位代表敏感词类型,第四位和第五位代表敏感词数量;将垃圾短信通过预处理之后转换成神经网络模型的输入数组,将垃圾短信对应的编号作为神经网络的输出数组对神经网络模型进行训练;所述神经网络模型包括误差前馈神经网络和RBF神经网络;将训练完成的神经网络模型标记为智能模型,通过处理器将智能模型发送至数据存储模块进行存储。
全文数据:
权利要求:
百度查询: 合肥大多数信息科技有限公司 一种基于中文分词识别技术的垃圾信息剔除系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。