一.从 linux 本地文件系统加载数据创建RDD
1.需要在 linux 本地创建 文件 test.txt
touch test.txt
2.打开 spark
spark shell
3.读取本地文件创建RDD
scala>val test=sc.testFile("file:///export/data/test.txt")
二.从 HDFS 加载数据创建 RDD
1.需要在 HDFS 上创建目录 data
hadoop fs -mkdir /data
2.需要从本地上传一个文件到 HDFS 上
hadoop fs -put test.txt /data
3.打开 spark
spark-shell
4.读取 HDFS 文件创建RDD
scala>val testRDD=sc.textFile("/data/test.txt")
三.通过并行集合创建 RDD
从一个已经存在的集合,数组上,通过 SparkContext 对象调用 parallelize() 方法创建 RDD
1.打开 spark
spark shell
2.创建一个数组,通过parallelize() 方法实现
scala>val array=Array(1,2,3,4,5)
array:Array[Int]=Array(1,2,3,4,5)
scala>val arrRDD=sc.parallelize(array)
arrRDD:org.apache.spark.rdd.RDD[Int]=ParallelcollectionRDD[6] at parallelize at
好文阅读
发表评论