2024年大数据最全【开源SPL】列存数据仓库怎样更高效

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

如果我们先对数据做一些处理，人为地制造某些数据特征来利用，再配合压缩算法，就可以实现较高的压缩率，同时保持较低的CPU消耗。

将数据排序后存储就是一个有效的处理方法。数据表中常常有许多维度字段，比如地区、日期等。这些维度的取值基本都在一个小集合范围内，数据量大时会有很多重复取值。如果数据是按这些列排序的，则相邻记录之间取值相同的情况就很常见。这时，使用很轻量级的压缩算法也能获得很好的压缩率。简单来讲，可以直接存储列值及其重复次数，而不必把同样的值存储多遍，少占用的空间是相当可观的。

排序的次序也有讲究。要尽量把字段值较长的列放在前面排序。比如有地区和性别两个列，地区的值（“北京”、“上海”等）字符数要大于性别（“男”、“女”），则先地区、后性别排序的效果就要好于反过来的情况。

我们还可以进行数据类型的优化，比如将字符串、日期等转换为适当的数值编码。如果把地区、性别字段都转换为小整数编号，字段值的长度就一样了。这时，可以选择重复情况更多的字段排到前面。例如性别只有两个枚举值，而地区则相对较多。所以各条记录中，性别重复的会更多，先性别、后地区排序所占用空间通常会更小。

开源数据计算引擎SPL提供的列存方案，就实现了这种压缩算法。把有序数据追加进SPL的组表时，默认会自动执行上述方法&#

好文推荐

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

夸智网

2024年大数据最全【开源SPL】列存数据仓库怎样更高效

数据挖掘人工智能数据仓库理论篇与Flume

spark 浅谈数据库、数据仓库、数据湖

发表评论取消回复

夸智网

2024年大数据最全【开源SPL】列存数据仓库怎样更高效

数据挖掘 人工智能 数据仓库理论篇与Flume

spark 浅谈数据库、数据仓库、数据湖

相关文章

发表评论取消回复

数据挖掘人工智能数据仓库理论篇与Flume