大数据嬛嬛喊你学Spark、Scala的安装

Spark数据存放于内存中，有更高的迭代运算效率；Mapreduce数据存放于磁盘中

2、易用

可以使用多种编程语言快速编写应用程序，例如Java、Scala、Python、R和SQL Spark提供了80多个高阶函数，可以轻松构建Spark任务

3、通用

Spark 可以与 SQL 、 Streaming 及复杂的分析良好结合。 Spark 还有一系列的高级工具，包括 Spark SQL 、 MLlib （机器学习库）、 GraphX （图计算）和 Spark Streaming （流计算），并且支持在一个应用中同时使用这些组件

4、随处运行

用户可以使用Spark的独立集群模式运行Spark，也可以在EC2（亚马逊弹性计算云）、Hadoop YARN或者Apache Mesos上运行Spark。并且可以从HDFS、Cassandra、HBase、Hive、Tachyon和任何分布式文件系统读取数据。

5、代码简洁

三、Spark 和Mapreduce区别

spark是在MapReduce上发展而来，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷

1.提高了效率

Spark把中间数据放到内存中，迭代运算效率高。MapReduce中计算结果需要落地，保存到磁盘上，这样势必会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率

2.容错性高

Spark引进了弹性分布式数据集RDD (Resilient Distributed Dataset) 的抽象，它是分布在一组节点中的只读对象集合，这些集合是弹性的，如果数据集一部分丢失，需要进行重建。

相比来说spark更加通用，spark提供了更多的数据集操作类型，处理节点之间通信模型不是向hadoop只采用Shuffle模式，而是采用用户可命名，控制中间结果的存储，分区。

3、生态系统

Spark拥有更加丰富的生态系统，提供了许多高级库和工具，如Spark SQL、Spark Streaming、MLlib和GraphX等。这些工具使得Spark在数据处理、机器学习和图计算等方面更加强大和便捷

Map Task详细工作流程

1、copy阶段：ReduceTask从各个MapTask上得到数据（一个ReduceTask会得到不同MapTask中同一个分区的数据） 2、merge阶段：将从MapTask上得到的数据进行归并排序，得到一个有序文件 3、reduce阶段：将合并后的有序文件读到reduce，并进行分组，通过用户编写的reduce()函数，得到新的key/value值。 4、write阶段：ReduceTask通过用户编写的RecordWriter，将key/value值输出为目标文件。

四、spark的框架

Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上。【Spark Core】：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spark运行的基础。Spark Core以RDD为数据抽象，提供Python、Java、 Scala、R语言的API，可以编程进行海量离线数据批处理计算。

【SparkSQL】：基于SparkCore之上，提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理，SparkSQL本身针对离线计算场景。同时基于SparkSQL，Spark提供了StructuredStreaming模块，可以以SparkSQL为基础，进行数据的流式计算。

【SparkStreaming】：以SparkCore为基础，提供数据的流式计算功能。 MLlib：以SparkCore为基础，进行机器学习计算，内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。

【GraphX】：以SparkCore为基础，进行图计算，提供了大量的图计算API，方便用于以分布式计算模式进行图计算

五、Spark的核心数据集RDD

1 RDD定义 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变类型、可分区、里面的元素可并行计算的集合。可以认为RDD是分布式的"列表List或数组Array"(与其说是列表不如说是元组【其本身是不可变类型，只能通过血缘追踪】

六、RDD特性

1.高效的容错性

现有容错机制：数据复制或者记录日志RDD具有天生的容错性：血缘关系，重新计算丢失分区，无需回滚系统，重算过程在不同节点之间并行，只记录粗粒度的操作

2.中间结果持久化到内存，数据在内存中的多个RDD操作直接按进行传递，避免了不必要的读写磁盘开销

3.存放的数据可以是JAVA对象，避免了不必要的对象序列化和反序列化

七、RDD的依赖关系

父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖，否则就是宽依赖

窄依赖是子RDD的一个分区只依赖与某个父RDD中的一个分区

宽依赖是子RDD的每一个分区都依赖于某个父RDD中一个以上的分区

八、Scala特性

1）面向对象

Scala是一种纯粹的面向对象语言。一个对象的类型和行为是由类和特征描述的。类通过子类化和灵活的混合类进行扩展，成为多重继承的可靠解决方案。

2）函数式编程

Scala提供了轻量级语法来定义匿名函数，支持高阶函数，允许函数嵌套，并支持函数柯里化。Scala 的样例类与模式匹配支持函数式编程语言中的代数类型。Scala 的单例对象提供了方便的方法来组合不属于类的函数。用户还可以使用Scala 的模式匹配，编写类似正则表达式的代码处理可扩展标记语言( Extensible Markup Language, XML )格式的数据。

3）静态类型

Scala配备了表现型的系统，以静态的方式进行抽象，以安全和连贯的方式进行使用。系统支持将通用类、内部类、抽象类和复合类作为对象成员，也支持隐式参数、转换和多

4）可扩展

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

开发知识点，真正体系化！**

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取） [外链图片转存中…(img-YlYulmWl-1712576354036)]

夸智网

大数据嬛嬛喊你学Spark、Scala的安装

java Docker搭建Flink1.17.0 使用Scala编写词频统计Demo

推荐项目：Bayes-Scala

发表评论取消回复

夸智网

大数据 嬛嬛喊你学Spark、Scala的安装

java Docker搭建Flink1.17.0 使用Scala编写词频统计Demo

推荐项目：Bayes-Scala

相关文章

发表评论取消回复

大数据嬛嬛喊你学Spark、Scala的安装