网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

如果我们先对数据做一些处理,人为地制造某些数据特征来利用,再配合压缩算法,就可以实现较高的压缩率,同时保持较低的CPU消耗。

将数据排序后存储就是一个有效的处理方法。数据表中常常有许多维度字段,比如地区、日期等。这些维度的取值基本都在一个小集合范围内,数据量大时会有很多重复取值。如果数据是按这些列排序的,则相邻记录之间取值相同的情况就很常见。这时,使用很轻量级的压缩算法也能获得很好的压缩率。简单来讲,可以直接存储列值及其重复次数,而不必把同样的值存储多遍,少占用的空间是相当可观的。

排序的次序也有讲究。要尽量把字段值较长的列放在前面排序。比如有地区和性别两个列,地区的值(“北京”、“上海”等)字符数要大于性别(“男”、“女”),则先地区、后性别排序的效果就要好于反过来的情况。

我们还可以进行数据类型的优化,比如将字符串、日期等转换为适当的数值编码。如果把地区、性别字段都转换为小整数编号,字段值的长度就一样了。这时,可以选择重复情况更多的字段排到前面。例如性别只有两个枚举值,而地区则相对较多。所以各条记录中,性别重复的会更多,先性别、后地区排序所占用空间通常会更小。

开源数据计算引擎SPL提供的列存方案,就实现了这种压缩算法。把有序数据追加进SPL的组表时,默认会自动执行上述方法&#

好文推荐

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。