一.从 linux 本地文件系统加载数据创建RDD

        1.需要在 linux 本地创建 文件 test.txt

        touch test.txt

        2.打开 spark

        spark shell

        3.读取本地文件创建RDD

        scala>val test=sc.testFile("file:///export/data/test.txt")

二.从 HDFS 加载数据创建 RDD

        1.需要在 HDFS 上创建目录 data

        hadoop fs -mkdir /data

        2.需要从本地上传一个文件到 HDFS 上

        hadoop fs -put test.txt /data

        3.打开 spark

        spark-shell

        4.读取 HDFS 文件创建RDD

        scala>val testRDD=sc.textFile("/data/test.txt")

三.通过并行集合创建 RDD

        从一个已经存在的集合,数组上,通过 SparkContext 对象调用 parallelize() 方法创建 RDD

        

        1.打开 spark

         spark shell

        2.创建一个数组,通过parallelize() 方法实现

        scala>val array=Array(1,2,3,4,5)

        array:Array[Int]=Array(1,2,3,4,5)

        scala>val arrRDD=sc.parallelize(array)

        arrRDD:org.apache.spark.rdd.RDD[Int]=ParallelcollectionRDD[6] at parallelize at :26

好文阅读

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。