首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于文本分类模型的数据智能分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:温州市数据集团有限公司

摘要:本申请涉及文本数据分类技术领域,具体涉及一种用于文本分类模型的数据智能分类方法,该方法包括:采集日志语句、日志词语和日志词语的词性;获取任意两条日志文本之间的词性分布系数;进而获取任意两条日志文本之间的文本相似性系数;获取任意两条日志文本之间的相似性故障相关度;计算词语位置系数;进而获取语句共现系数;获取任意两条日志文本之间的部件状态关联契合度;进而获取任意两条日志文本之间的概率转换系数;获取任意两条日志文本之间的修正关联度概率;使用聚类算法对所有日志文本进行分类。本申请弥补了现有方法在识别仪器状态波动位置相似性和描述相似性方面的不足,实现了对日志文本的高效、精准分类管理。

主权项:1.一种用于文本分类模型的数据智能分类方法,其特征在于,该方法包括以下步骤:采集各日志文本中的日志语句、日志词语和日志词语的词性,对日志词语和日志词语的词性进行编码构建各日志文本的日志词语向量集合,根据日志语句构建各日志文本的日志语句集合;根据各日志文本中日志词语的个数获取任意两条日志文本之间的词性分布系数;根据日志词语向量集合获取任意两条日志文本之间的文本相似性系数;根据词性分布系数和文本相似性系数获取任意两条日志文本之间的相似性故障相关度;根据日志语句集合中日志词语的位置获取各日志文本中的各日志语句与其他各日志文本中的各日志语句的词语位置系数;根据词语位置系数和日志语句集合获取各日志文本中的各日志语句与其他各日志文本中的各日志语句之间的语句共现系数;根据相似性故障相关度和语句共现系数获取任意两条日志文本之间的部件状态关联契合度;根据部件状态关联契合度获取任意两条日志文本之间的概率转换系数;根据概率转换系数获取任意两条日志文本之间的修正关联度概率;使用聚类算法,根据修正关联度概率对所有日志文本进行分类;所述根据各日志文本中日志词语的个数获取任意两条日志文本之间的词性分布系数,包括:计算相同词性下第a条日志文本中日志词语的个数与第b条日志文本中日志词语的个数之间的差值绝对值,计算所有词性中所有所述差值绝对值的和值,将以自然常数为底、以所述和值为指数的指数函数的计算结果作为第a条日志文本与第b条日志文本之间的词性分布系数;所述根据词性分布系数和文本相似性系数获取任意两条日志文本之间的相似性故障相关度,包括:将任意两条日志文本之间的文本相似性系数与词性分布系数之间的比值作为任意两条日志文本之间的相似性故障相关度;所述根据日志语句集合中日志词语的位置获取各日志文本中的各日志语句与其他各日志文本中的各日志语句的词语位置系数,包括:将各日志词语在其所在日志文本中出现的所有位置序号的均值作为各日志词语的全局平均位置;计算第a条日志文本中日志语句集合中第个日志语句中第个日志词语的全局平均位置与第b条日志文本中日志语句集合的第个日志语句中第个日志词语的全局平均位置之间的差值绝对值,将第条日志文本中第个日志语句和第条日志文本中第个日志语句之间所有对应的日志语句的差值绝对值的和值作为第条日志文本中第个日志语句和第条日志文本中第个日志语句之间的词语位置系数;所述语句共现系数,公式为: 式中,是第条日志文本中第个日志语句和第条日志文本中第个日志语句的语句共现系数,是第条日志文本中第个日志语句和第条日志文本中第个日志语句的词语位置系数;是第a条日志文本中日志语句集合中第个日志语句中位置参数分别为、的两个日志词语之间的点互信息,是第b条日志文本中日志语句集合的第个日志语句中位置参数分别为、的两个日志词语之间的点互信息;是最大值函数;是第条日志文本的日志语句集合的第个日志语句中日志词语的个数,是第条日志文本的日志语句集合的第个日志语句中日志词语的个数;所述根据相似性故障相关度和语句共现系数获取任意两条日志文本之间的部件状态关联契合度,包括:计算第条日志文本与第条日志文本中所有日志语句之间的语句共现系数的和值,计算以自然常数为底、以所述和值为指数的指数函数的计算结果,计算所述计算结果和第条日志文本与第条日志文本之间的相似性故障相关度的乘积作为第条日志文本与第条日志文本之间的部件状态关联契合度;所述根据部件状态关联契合度获取任意两条日志文本之间的概率转换系数,包括:将任意两条日志文本之间的部件状态关联契合度减数字1后取绝对值的结果作为任意两条日志文本之间的修正关联度;计算所有日志文本之间的修正关联度的和值,计算任意两条日志文本之间的修正关联度与所述和值的比值,将数字1与所述比值的差值作为任意两条日志文本之间的概率转换系数;所述根据概率转换系数获取任意两条日志文本之间的修正关联度概率,包括:计算所有任意两条日志文本之间的概率转换系数的和值,将任意两条日志文本之间的概率转换系数与所述和值的比值作为任意两条日志文本之间的修正关联度概率;所述使用聚类算法,根据修正关联度概率对所有日志文本进行分类,包括:将所有日志文本按照日志时间顺序依次赋予一个名称标识符;将任意两个日志文本之间的修正关联度概率作为日志文本矩阵中对应名称标识符所在行、列位置的元素值;将日志文本矩阵作为马尔科夫图聚类算法的输入,输出日志文本的智能分类结果。

全文数据:

权利要求:

百度查询: 温州市数据集团有限公司 一种用于文本分类模型的数据智能分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。