hadoop hdfs 大数据 RDD 三种创建方式

一.从 linux 本地文件系统加载数据创建RDD

1.需要在 linux 本地创建文件 test.txt

touch test.txt

2.打开 spark

spark shell

3.读取本地文件创建RDD

scala>val test=sc.testFile("file:///export/data/test.txt")

二.从 HDFS 加载数据创建 RDD

1.需要在 HDFS 上创建目录 data

hadoop fs -mkdir /data

2.需要从本地上传一个文件到 HDFS 上

hadoop fs -put test.txt /data

3.打开 spark

spark-shell

4.读取 HDFS 文件创建RDD

scala>val testRDD=sc.textFile("/data/test.txt")

三.通过并行集合创建 RDD

从一个已经存在的集合，数组上，通过 SparkContext 对象调用 parallelize() 方法创建 RDD

1.打开 spark

spark shell

2.创建一个数组，通过parallelize() 方法实现

scala>val array=Array(1,2,3,4,5)

array:Array[Int]=Array(1,2,3,4,5)

scala>val arrRDD=sc.parallelize(array)

arrRDD:org.apache.spark.rdd.RDD[Int]=ParallelcollectionRDD[6] at parallelize at :26

好文阅读

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

夸智网