网站首页 > 博客 > 正文

大数据【Spark编程基础】实验二Spark和Hadoop的安装（附源代码）

vengomo 博客 2024-03-12 1 0

文章目录

一、实验目的二、实验平台三、实验内容和要求1．HDFS 常用操作2、Spark 读取文件系统的数据

四、实验过程

一、实验目的

（1）掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法；（2）熟悉 HDFS 的基本使用方法；（3）掌握使用 Spark 访问本地文件和 HDFS 文件的方法。

二、实验平台

操作系统：Ubuntu16.04； Spark 版本：2.1.0； Hadoop 版本：2.7.1。

三、实验内容和要求

1．HDFS 常用操作

使用 hadoop 用户名登录进入 Linux 系统，启动 Hadoop，参照相关 Hadoop 书籍或网络资料，或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”，使用 Hadoop 提供的 Shell 命令完成如下操作：（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；（2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件 test.txt，并在该文件中随便输入一些内容，然后上传到 HDFS 的“/user/hadoop” 目录下；（3）把 HDFS 中“/user/hadoop”目录下的 test.txt 文件，下载到 Linux 系统的本地文件系统中的“/home/hadoop/下载”目录下；（4）将HDFS中“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示；（5）在 HDFS 中的“/user/hadoop”目录下，创建子目录 input，把 HDFS 中 “/user/hadoop”目录下的 test.txt 文件，复制到“/user/hadoop/input”目录下；（6）删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/hadoop” 目录下的 input 子目录及其子目录下的所有内容。

2、Spark 读取文件系统的数据

（1）在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；（2）在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；（3）编写独立应用程序，读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；通过 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。

四、实验过程

（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；

$cd /usr/local/hadoop

$./sbin/start-dfs.sh #启动 HDFS

$./bin/hdfs dfs -mkdir -p /user/hadoop #在 HDFS 中创建用户目录/user/hadoop

（2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件 test.txt，并在该文件中随便输入一些内容，然后上传到 HDFS 的“/user/hadoop” 目录下；

$cd /home/hadoop

$vim test.txt

#在 test.txt 中随便输入一些内容，并保存退出 vim 编辑器

$cd /usr/local/hadoop

$./bin/hdfs dfs -put /home/hadoop/test.txt /user/hadoop

（3）把 HDFS 中“/user/hadoop”目录下的 test.txt 文件，下载到 Linux 系统的本地文件系统中的“/home/hadoop/下载”目录下；

$ cd /usr/local/hadoop

$./bin/hdfs dfs -get /user/hadoop/test.txt /home/hadoop/下载

（4）将HDFS中“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示；

$ cd /usr/local/hadoop

$./bin/hdfs dfs -cat /user/hadoop/test.txt

（5）在 HDFS 中的“/user/hadoop”目录下，创建子目录 input，把 HDFS 中 “/user/hadoop”目录下的 test.txt 文件，复制到“/user/hadoop/input”目录下；

$ cd /usr/local/hadoop

$./bin/hdfs dfs -mkdir /user/hadoop/input

$./bin/hdfs dfs -cp /user/hadoop/test.txt /user/hadoop/input

（6）删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/hadoop” 目录下的 input 子目录及其子目录下的所有内容。

$ cd /usr/local/hadoop

$./bin/hdfs dfs -rm /user/hadoop/test.txt

$./bin/hdfs dfs -rm -r /user/hadoop/input

（1）在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；

cd /usr/local/spark

./bin/spark-shell

特别注意：这里要先启动进入spark，很多时候我们不注意，直接在scala那就运行下面的命令了，这会导致程序报错。

val textFile=sc.textFile("test.txt")

textFile.count()

（2）在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；

val textFile=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt")

textFile.count()

（3）编写独立应用程序，读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；通过 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。

创建一个文件夹 sparkapp 作为应用程序根目录：

$ cd ~ #

$ mkdir ./sparkapp #

$ mkdir -p ./sparkapp/src/main/scala #

$ cd ~

$ vim ./sparkapp/src/main/scala/SimpleApp.scala

然后，在 SimpleApp.scala 代码文件中输入以下代码：

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.SparkConf

object SimpleApp {

def main(args: Array[String]) {

val logFile = " hdfs://localhost:9000/user/hadoop/test.txt"

val conf = new SparkConf().setAppName("Simple Application")

val sc = new SparkContext(conf)

val logData = sc.textFile(logFile, 2)

val num = logData.count()

printf("The num of this file is %d", num)

}

下面使用 sbt 对 Scala 程序进行编译打包。首先，需要使用 vim 编辑器在“~/sparkapp”目录下新建文件 simple.sbt，命令如下：

$ cd ~

$ vim ./sparkapp/simple.sbt

在 simple.sbt 文件中输入以下内容：

name := "Simple Project"

version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

为了保证 sbt 能够正常运行，先执行如下命令检查整个应用程序的文件结构：

$ cd ~/sparkapp

$ find .

文件结构应该是类似如下所示的内容：

./src

./src/main

./src/main/scala

./src/main/scala/SimpleApp.scala

./simple.sbt

接下来，可以通过如下代码将整个应用程序打包成 JAR：

$ cd ~/sparkapp #

$ /usr/local/sbt/sbt package

对于刚刚安装的 Spark 和 sbt 而言，第一次执行上面命令时，系统会自动从网络上下载各种相关的依赖包，因此上面执行过程需要消耗几分钟时间，后面如果再次执行 sbt package 命令，速度就会快很多，因为不再需要下载相关文件。执行上述命令后，屏幕上会返回如下类似信息：

$ /usr/local/sbt/sbt package

OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=256M; support was removed

in 8.0

[info] Set current project to Simple Project (in build file:/home/hadoop/sparkapp/)

……

[info] Done packaging.

[success] Total time: 2 s, completed 2017-8-30 23:57:29

生成的 JAR 包的位置为“~/sparkapp/target/scala-2.11/simple-project_2.11-1.0.jar”,然后重新打开一个终端，执行以下命令。

$ /usr/local/spark/bin/spark-submit --class "SimpleApp" ~/sparkapp/target/scala-2.11/simple-project_2.11-1.0.jar

大功告成！！！

好文链接

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-03-12 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713461666.html

夸智网

大数据【Spark编程基础】实验二Spark和Hadoop的安装（附源代码）

大数据了解Spark运行架构与原理

大数据分布式 hadoop jdk Spark在Windows下的环境搭建及pyspark的使用

发表评论取消回复

夸智网

大数据 【Spark编程基础】实验二Spark和Hadoop的安装（附源代码）

大数据 了解Spark运行架构与原理

大数据 分布式 hadoop jdk Spark在Windows下的环境搭建及pyspark的使用

相关文章

发表评论取消回复

大数据【Spark编程基础】实验二Spark和Hadoop的安装（附源代码）

大数据了解Spark运行架构与原理

大数据分布式 hadoop jdk Spark在Windows下的环境搭建及pyspark的使用