买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国网江西省电力有限公司电力科学研究院;国家电网有限公司
摘要:本发明公开了一种基于双向并行树优化日志解析的日志异常检测方法,本发明对日志数据进行处理并创建初始组,对于每个初始组,创建一个以最长公共模式为根的双向并行树;然后进行父方向和子方向的节点更新,更新完成后,双向并行树输出日志模板;使用Bi‑kmeans对日志模板进行聚类,根据日志模版选择能够代表日志行为的条目,按时间顺序排列的条目构成日志序列,将日志序列中的每个条目转换为日志键,然后对LogBERT模型进行训练,用训练好的LogBERT模型进行异常日志序列检测。本发明可以提高日志解析的准确率,从而提高日志异常检测的精度。
主权项:1.基于双向并行树优化日志解析的日志异常检测方法,其特征在于,包括以下步骤:步骤S1、对日志数据进行分词和公共变量过滤,得到每条日志的所有单词组合;所述公共变量过滤:首先,需要定义一组正则表达式规则,然后读取日志数据,对每条日志进行分词处理,将连续的文本拆分成单独的单词或词组,对分词后的日志进行迭代,使用定义好的正则表达式规则去匹配公共变量;一旦正则表达式匹配到公共变量,就将匹配到的部分替换为通配符“*”,在过滤掉公共变量后,收集每个单词在整个日志集中的出现频率;为每个单词创建一个元组,包含单词本身和它的频率,将具有相同频率的单词元组合并成一个单词组合;步骤S2、从频率大于频率阈值的单词组合中选择的最长单词组合来创建初始组,对于每个初始组,创建一个以最长公共模式为根的双向并行树;步骤S3、双向并行树的父方向的节点更新,检查代表频率高于根节点的列中是否有缺失常量词,将日志消息的列中代表频率高于根节点的所有单词都将添加到树的父方向;步骤S4、双向并行树的子方向的节点更新,检查是否有缺失代表频率低于根节点的列中的常量词,在树的子方向上添加所有在代表频率低于根节点的列中的单词;步骤S5、对于每个初始组,父方向和子方向的节点添加完成后,双向并行树输出日志模板;初始组中的每个单词都对应于树中的一个节点,该节点被标记为常量或变量;步骤S6、利用TF-IDF算法将日志模板中的文本数据转换为特征向量;然后使用Bi-kmeans对日志模板进行聚类,在父方向上基于TF-IDF算法得到的特征向量对日志模板进行聚类,识别出在日志数据中频繁出现的模式;在子方向上,根据日志模板的结构特征进行聚类;通过Bi-kmeans聚类,将相似的日志模板分组,形成不同的类别;步骤S7、根据日志模版选择能够代表日志行为的条目,按时间顺序排列的条目构成日志序列,将日志序列中的每个条目转换为日志键,日志键按照在原始日志序列中的顺序排列形成的日志键序列;为每个解析的日志键提供一个唯一的事件id,事件id用作LogBERT模型训练的词汇表;将一个日志序列作为LogBERT模型的输入数据集,用标签指示日志序列是正常还是异常,创建一个随机生成的矩阵E∈RK×d,其中矩阵中的每一行表示词汇表中每个日志键的嵌入,R为维度符号,d是每个日志键嵌入的维度,K表示从日志消息中提取的一组日志键,创建位置嵌入,而位置嵌入D∈RK×d是通过正弦函数生成的,以对日志序列中日志键的位置信息进行编码;LogBERT模型将时间点t的日志键kt表示为输入表示xt,输入表示xt是日志键嵌入和位置嵌入的总和,t∈{1,2,…,T};T为日志序列的时间段;步骤S8、将计算出的输入表示{xdist,x1,x2,…,xt,…,xT-1,xT}作为输入馈送到logBERT模型的Transformer编码器;xdist是添加到每个日志序列开头的距离标记的输入表示,Transformer编码器的输出是上下文嵌入{hdist,h1,h2,…,ht,…,hT-1,hT},对应于日志序列中的每个日志键,hdist是距离标志的上下文嵌入向量,ht是时间点t的日志键的上下文嵌入;将掩码标记的上下文嵌入hmask的掩码令牌传递给全连接层,然后传递给softmax函数,以获得标记在词汇表上的概率分布;该概率分布用于预测最合适的掩码令牌来代替原掩码令牌;步骤S9、使用球形目标函数来调节正常日志序列的分布,使正常的日志序列在嵌入空间中集中且彼此靠近,而异常的日志序列则远离球体的中心;步骤S10、训练完成后,进行异常日志序列检测。
全文数据:
权利要求:
百度查询: 国网江西省电力有限公司电力科学研究院 国家电网有限公司 基于双向并行树优化日志解析的日志异常检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。