Windows 上的 Spark

Mallanagouda Patil

5.00/5 (1投票)

2017 年 2 月 4 日

CPOL

2分钟阅读

15765

本文档将帮助您轻松地在 Windows 上设置 Apache Spark。

引言

Apache Spark 旨在在 Linux 生产环境上运行。但是，为了学习 Spark 编程，我们可以使用 Windows 机器。在本文中，我将解释如何使用简单的步骤设置 Spark，并运行我们的 Hello World Spark 程序。

背景

Apache Spark 是一种快速且通用的集群计算平台。 Spark 扩展了流行的 MapReduce 模型，以有效地支持更多类型的计算，包括交互式查询和流处理。您可以从以下网址获取更多信息 - https://spark.apache.ac.cn/ 和 https://en.wikipedia.org/wiki/Apache_Spark

所需软件

Apache Spark 使用 Scala 构建并在 JVM 上运行。最新的 Spark 版本 2.0.2 运行在 Java 1.7 上

步骤 1

因此，首先我们需要设置 Java 1.7（如果尚未设置）。您可以从 http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html#jre-7u76-oth-JPR 下载它

您可以使用安装程序或二进制文件。一旦 Java 设置完成，就打开命令提示符并使用命令“java -version”检查 Java 版本。它将显示如下：

步骤 2

Spark 依赖于 winutils.exe，通常与 Hadoop 一起安装。由于我们不打算部署 Hadoop，因此我们需要下载此程序并设置环境变量。

从 http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe 下载 winutils.exe

在您想要的位置创建一个名为 hadoop/bin 的文件夹。我选择 c:\backup\hadoop\bin

创建一个名为 HADOOP_HOME 的环境变量，路径为 c:\backup\hadoop

步骤 3

现在从 https://spark.apache.ac.cn/downloads.html 下载 Apache spark

将其解压缩到您首选的位置，它看起来像这样

使用 spark bin 位置更新“Path”环境变量 - 在我的情况下，它是 C:\backup\spark-2.0.2-bin-hadoop2.7\bin

测试 Spark

Spark 带有交互式 shell 来执行 spark API。可用的 shell 包括：

Spark-Shell --> 使用 Scala API

PySpark --> 使用 Python API

打开命令提示符并键入 spark-shell 并按 Enter。如果所有配置都已正确设置，您应该会看到 Spark shell。

恭喜！您已成功在 Windows 上设置 Spark。现在让我们尝试 Hadoop hellow world 程序，这是一个简单的单词计数程序 :). 如果您知道如何使用 Java MapReduce 或 Hive SQL 或 Pig 脚本编写它，您会真正欣赏 Spark，在那里我们可以使用一些简单的 API 实现相同的功能。

A. 确保您拥有要计数单词的示例文本文件。假设它位于 c:\temp\test.txt

B. 让我们编写 hello world 的 spark 程序

scala> val file = sc.textFile("c:\\temp\\test.txt")  --> Press Enter

scala> val words = file.flatMap(line=>line.split(" ").map(word=>(word,1)).reduceByKey(_+_) -> Press Enter

scala> words.collect -> Press Enter

Windows 上的 Spark

引言

背景

所需软件

测试 Spark

历史