由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。
JDK的安装
- 下载
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html
- 安装
双击后傻瓜式安装,安装完成后输入以下命令验证
1 | java |
环境变量设置
设置方法
在桌面右击【计算机】--【属性】--【高级系统设置】,然后在系统属性里选择【高级】--【环境变量】,然后在系统变量中找到“Path”变量,并选择“编辑”按钮
设置变量
在新建页面输入”变量名”位 JAVA_HOME,输入“变量值”为你安装的JDK地址
1
JAVA_HOME=E:\Java\jdk1.8.0_144
在系统变量区域,选择”新建按钮”输入”变量名”为CLASSPATH,输入”变量值”为.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
1
CLASSPATH=.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
在系统变量区域,选择Path,点击下面的编辑按钮,在弹出的框中选择新建添加2行,一行输入%JAVA_HOME%\bin,一行输入%JAVA_HOME%\jre\bin
1
;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
Scala的安装
- 下载
下载地址:http://www.scala-lang.org/
- 安装
双击下载得到Scala的msi文件,可执行安装。
输入下面命令验证
1 | C:\Users\Mr wang>scala |
注:如果不能显示版本信息,并且未能进入Scala的交互命令行,通常有两种可能性:
- Path系统变量中未能正确添加Scala安装目录下的bin文件夹路径名,按照JDK安装中介绍的方法添加即可。
- Scala未能够正确安装,重复上面的步骤即可。
Spark的安装
- 下载
1 | wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz |
- 安装
解压后即可
注:spark的解压路径中不要有空格等
设置环境变量
1 | 新增SPARK_HOME环境变量 |
异常处理
1 | C:\Users\Mr wang>spark-shell |
出现上述错误
- 检查是否正确配置了spark环境变量
- SPARK_HOME=spark_install_path
- path=…;%SPARK_HOME%\bin
- 检查是否正确配置了java环境变量
- JAVA_HOME=java_install_path
- path=…;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
Hadoop安装
- 下载
下载地址:https://archive.apache.org/dist/hadoop/common/
1 | wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz |
- 安装
解压到指定目录
- 设置环境变量
1 | # 新增HADOOP_HOME环境变量 |