一篇文章搞懂数据仓库：数据仓库架构-Lambda和Kappa对比

衣食无忧博客 2024-05-13 3 0

| 混合架构 | | |

ps.表中举例若有不当，欢迎指正

Lambda

==================================================================

Lambda架构原理

Lambda架构的核心思想是把大数据系统拆分成三层：Batch Layer，Speed Layer和Serving Layer。其中，Batch Layer负责数据集存储以及全量数据集的预查询。Speed Layer主要负责对增量数据进行计算，生成Realtime Views。Serving Layer用于响应用户的查询请求，它将Batch Views和Realtime Views的结果进行合并，得到最后的结果，返回给用户，如下图

Lambda架构的缺点

Lambda架构解决了大数据量下实时计算的问题，但架构本身也存在一定缺点。

实时与批量计算结果不一致引起的数据口径问题：因为批量和实时计算走的是两个计算框架和计算程序，算出的结果往往不同，经常看到一个数字当天看是一个数据，第二天看昨天的数据反而发生了变化。批量计算在计算窗口内无法完成：在IOT时代，数据量级越来越大，经常发现夜间只有4、5个小时的时间窗口，已经无法完成白天20多个小时累计的数据，保证早上上班前准时出数据已成为每个大数据团队头疼的问题。开发和维护的复杂性问题：Lambda 架构需要在两个不同的 API（application programming interface，应用程序编程接口）中对同样的业务逻辑进行两次编程：一次为批量计算的ETL系统，一次为流式计算的Streaming系统。针对同一个业务问题产生了两个代码库，各有不同的漏洞。这种系统实际上非常难维护服务器存储大：数据仓库的典型设计，会产生大量的中间结果表，造成数据急速膨胀，加大服务器存储压力。

Kappa

=================================================================

Kappa架构原理

Kappa架构的核心思想包括以下三点：

用Kafka或者类似的分布式队列系统保存数据，你需要几天的数据量就保存几天。当需要全量重新计算时，重新起一个流计算实例，从头开始读取数据进行处理，并输出到一个新的结果存储中。当新的实例做完后，停止老的流计算实例，并把老的一些结果删除。

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）

、讲解视频**

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python） [外链图片转存中…(img-5d72b2AF-1710888957139)]

推荐链接

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-05-13 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713990138.html

夸智网

一篇文章搞懂数据仓库：数据仓库架构-Lambda和Kappa对比

上哪儿去接小红书的单子柚子快报邀请码-778899

搭载AI降噪技术告别 AI语音降噪音有什么用

发表评论取消回复

夸智网

一篇文章搞懂数据仓库：数据仓库架构-Lambda和Kappa对比

上哪儿去接小红书的单子柚子快报邀请码-778899

搭载AI降噪技术告别 AI语音降噪音有什么用

相关文章

发表评论取消回复