买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京新数科技有限公司
摘要:本发明提出一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质,基于贪心策略的思想提出改进的LZ77压缩算法,不直接计算源数据流的滑动距离,而是增加预处理环节找到最长匹配值,且通过考虑匹配字符后的连续字符序列选择最有可能成为最大匹配的位置,为待编码数据流找到一个更好的匹配位置,提高匹配的准确性。该方法使得变量的分类更为精细,将消息体分为模板变量和普通变量。在模板变量部分,采用霍夫曼编码进行高效压缩,通过构建最优前缀编码树,将重复日志模板以更紧凑的形式表示。为了进一步提升效率,特别针对霍夫曼编码对于大批量数据时效率低下的问题,这一方法采取将一组数据作为整体进行编码的策略。采用本发明后,减少了IO操作的次数,降低了数据传输的开销,从而有效提高了性能。通过这种解析器树构建方法,不仅提高了日志处理的效率,还通过精细的变量分类和模板定义,为后续的压缩操作提供了更为优化的基础。
主权项:1.一种基于霍夫曼编码与LZ77的日志压缩存取方法,通过对日志进行分组,计算每组内最大重复日志消息的长度,重新定义日志模板,其特征在于:该方法具体步骤为:1预处理:对日志分组,计算每组内最大重复日志消息的长度,重新定义日志模板,将日志变量划分为模板变量和普通变量;2模板变量压缩:以空格字符为分割将字符串分割为多个单词,并以单词为单位执行霍夫曼编码;3普通变量压缩:使用改进的LZ77算法进行编码压缩;预处理时,解析器使用空格符将日志数据拆分为字符串列表,检索以该模板开头的子节点是否存在,如果相应子节点不存在,解析器重新加入左边的树状字符串中,等待可以匹配到相同起始字符串的子节点后加入右边的解析器树,解析器将创建了一个新模板;如果相应子节点存在,按照对应模板变量加入解析器树;模板变量压缩中,以单词为单位进行霍夫曼编码,按照每个单词出现的频率构建霍夫曼树,出现频率最高的字符,距离树的根节点最近;普通变量压缩中,改进的LZ77压缩算法具体步骤为:从左到右处理待编码数据流P,对于每个位置i,计算以Pi为起点的最长连续字符序列长度match_length[i];在滑动窗口待编码数据流P内查找搜索区中的最大匹配字符串,P对准匹配位置Ti;若Pk≠Ti,匹配未成功,且Ti不在T中,则右移P直至Pi位于匹配失败位Ti+1,T为文本窗口;若Ti在P中不止出现一处,则若P后面K位和T中有相同文本在T中其他地方出现,将P右移,使用相同的文本对齐,且一致的文本尽量大。
全文数据:
权利要求:
百度查询: 北京新数科技有限公司 一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。