Windows 上的 Spark





5.00/5 (1投票)
本文档将帮助您轻松地在 Windows 上设置 Apache Spark。
引言
Apache Spark 旨在在 Linux 生产环境上运行。但是,为了学习 Spark 编程,我们可以使用 Windows 机器。 在本文中,我将解释如何使用简单的步骤设置 Spark,并运行我们的 Hello World Spark 程序。
背景
Apache Spark 是一种快速且通用的集群计算平台。 Spark 扩展了流行的 MapReduce 模型,以有效地支持更多类型的计算,包括交互式查询和流处理。 您可以从以下网址获取更多信息 - https://spark.apache.ac.cn/ 和 https://en.wikipedia.org/wiki/Apache_Spark
所需软件
Apache Spark 使用 Scala 构建并在 JVM 上运行。最新的 Spark 版本 2.0.2 运行在 Java 1.7 上
步骤 1
因此,首先我们需要设置 Java 1.7(如果尚未设置)。您可以从 http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html#jre-7u76-oth-JPR 下载它
您可以使用安装程序或二进制文件。 一旦 Java 设置完成,就打开命令提示符并使用命令“java -version”检查 Java 版本。 它将显示如下:
步骤 2
Spark 依赖于 winutils.exe,通常与 Hadoop 一起安装。 由于我们不打算部署 Hadoop,因此我们需要下载此程序并设置环境变量。
从 http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe 下载 winutils.exe
在您想要的位置创建一个名为 hadoop/bin 的文件夹。 我选择 c:\backup\hadoop\bin
创建一个名为 HADOOP_HOME 的环境变量,路径为 c:\backup\hadoop
步骤 3
现在从 https://spark.apache.ac.cn/downloads.html 下载 Apache spark
将其解压缩到您首选的位置,它看起来像这样
使用 spark bin 位置更新“Path”环境变量 - 在我的情况下,它是 C:\backup\spark-2.0.2-bin-hadoop2.7\bin
测试 Spark
Spark 带有交互式 shell 来执行 spark API。 可用的 shell 包括:
Spark-Shell --> 使用 Scala API
PySpark --> 使用 Python API
打开命令提示符并键入 spark-shell 并按 Enter。 如果所有配置都已正确设置,您应该会看到 Spark shell。
恭喜! 您已成功在 Windows 上设置 Spark。 现在让我们尝试 Hadoop hellow world 程序,这是一个简单的单词计数程序 :). 如果您知道如何使用 Java MapReduce 或 Hive SQL 或 Pig 脚本编写它,您会真正欣赏 Spark,在那里我们可以使用一些简单的 API 实现相同的功能。
A. 确保您拥有要计数单词的示例文本文件。 假设它位于 c:\temp\test.txt
B. 让我们编写 hello world 的 spark 程序
scala> val file = sc.textFile("c:\\temp\\test.txt") --> Press Enter
scala> val words = file.flatMap(line=>line.split(" ").map(word=>(word,1)).reduceByKey(_+_) -> Press Enter
scala> words.collect -> Press Enter
历史