spark standalone集群搭建

下载软件

java JDK-1.8

spark

安装软件及配置

安装jdk

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 解压 jdk-8u171-linux-x64.tar.gz
tar xf jdk-8u171-linux-x64.tar.gz /opt

# 配置环境变量
vim /etc/profile

export JAVA_HOME=/opt/jdk-8u171
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH

# 激活profile
source /etc/profile

# 检查jdk版本,看是否安装成功
java -version

安装spark

1
2
3
4
5
6
7
8
# 解压spark-2.4.3-bin-hadoop2.7.tgz
tar xf spark-2.4.3-bin-hadoop2.7.tgz /opt

# 配置环境变量
vim /etc/profile

export SPARK_HOME=/opt/spark-2.4.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

配置spark

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# cd ${SPARK_HOME}/conf
cp spark-env.sh.template spark-env.sh
slaves.template slaves

# 配置conf/spark_env.sh
vim spark_env.sh

export JAVA_HOME=/opt/jdk-8u171
export SPARK_MASTER_HOST=hostname
export SPARK_MASTER_IP=hostname
export SPARK_MASTER_PORT=7077

# 配置slaves
vim slaves

hostname1
hostname2
...

spark_env.sh配置参数:http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts

配置hosts

1
2
3
4
5
6
7
vim /etc/hosts

ip1 hostname1
ip2 hostname2
...

注:ip用本机物理ip,不用配置静态或浮动ip

配置主机间免密登陆

1
2
ssh-keygen -t rsa   # 一路Enter
ssh-copy-id root@hostname

启动spark集群

一般来说,Standalone模式的Spark集群的启动有以下的几种方式::

1. master,slave一起启动:

1
2
cd $SPARK_HOME
./sbin/start-all.sh

2. master,slave节点分开启动:

1
2
3
4
5
cd $SPARK_HOME

# 先启动 master,在启动slave
./sbin/start-master.sh -h 192.168.100.10
./sbin/start-slave.sh 192.168.100.10:7077

停止spark集群

1
2
cd $SPARK_HOME
./sbin/stop-all.sh

Spark配置参数详解

Spark提供三个位置用来配置系统:

  • Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置
  • 环境变量:可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息
  • 日志配置:可以通过log4j.properties配置

参考:https://www.cnblogs.com/yangcx666/p/8723826.html

Reference

https://spark.apache.org/docs/latest/configuration.html

-------------本文结束感谢您的阅读-------------