Spark on Yarn 多机集群部署

1. 规划机器角色

服务器	IP 地址	角色
Master	192.168.1.100	NameNode + ResourceManager + Spark Master
Worker1	192.168.1.101	DataNode + NodeManager + Spark Worker
Worker2	192.168.1.102	DataNode + NodeManager + Spark Worker

2. 配置所有机器

2.1 安装 Java

在 所有节点 上执行：

sudo apt update
sudo apt install -y openjdk-8-jdk

验证 Java：

java -version

2.2 免密 SSH

在 Master 节点执行：

ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa

然后将公钥 id_rsa.pub 复制到 所有节点：

ssh-copy-id hadoop@192.168.1.100
ssh-copy-id hadoop@192.168.1.101
ssh-copy-id hadoop@192.168.1.102

验证：

ssh hadoop@192.168.1.100
ssh hadoop@192.168.1.101
ssh hadoop@192.168.1.102

3. 安装 Hadoop 并配置 Yarn

3.1 在所有节点安装 Hadoop

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop

3.2 配置 Master 节点

在 Master（192.168.1.100）上：

vim ~/.bashrc

添加：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/sbin:$PATH

复制到 Worker 节点：

scp ~/.bashrc hadoop@192.168.1.101:~/
scp ~/.bashrc hadoop@192.168.1.102:~/

在所有节点执行：

source ~/.bashrc

3.3 配置 core-site.xml

vim $HADOOP_HOME/etc/hadoop/core-site.xml

Master 上配置：

xml<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.100:9000</value>
    </property>
</configuration>

分发到 Worker：

scp $HADOOP_HOME/etc/hadoop/core-site.xml hadoop@192.168.1.101:$HADOOP_HOME/etc/hadoop/
scp $HADOOP_HOME/etc/hadoop/core-site.xml hadoop@192.168.1.102:$HADOOP_HOME/etc/hadoop/

3.4 配置 hdfs-site.xml

vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Master 配置：

xml<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

分发到 Worker：

scp $HADOOP_HOME/etc/hadoop/hdfs-site.xml hadoop@192.168.1.101:$HADOOP_HOME/etc/hadoop/
scp $HADOOP_HOME/etc/hadoop/hdfs-site.xml hadoop@192.168.1.102:$HADOOP_HOME/etc/hadoop/

3.5 配置 Yarn

Master 配置 yarn-site.xml：

vim $HADOOP_HOME/etc/hadoop/yarn-site.xml
xml<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>192.168.1.100</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

分发到 Worker：

scp $HADOOP_HOME/etc/hadoop/yarn-site.xml hadoop@192.168.1.101:$HADOOP_HOME/etc/hadoop/
scp $HADOOP_HOME/etc/hadoop/yarn-site.xml hadoop@192.168.1.102:$HADOOP_HOME/etc/hadoop/

3.6 配置 slaves

vim $HADOOP_HOME/etc/hadoop/slaves

添加：

192.168.1.101
192.168.1.102

3.7 启动 Hadoop

hdfs namenode -format
start-dfs.sh
start-yarn.sh

如果遇到“ERROR: JAVA_HOME is not set and could not be found”的报错信息，执行下面的语句：

sudo vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
#保存后将文件分发到Worker
scp $HADOOP_HOME/etc/hadoop/hadoop-env.sh test@192.168.1.101:$HADOOP_HOME/etc/hadoop/
scp $HADOOP_HOME/etc/hadoop/hadoop-env.sh test@192.168.1.102:$HADOOP_HOME/etc/hadoop/

验证：

jps

4. 安装 Spark

4.1 在所有节点安装 Spark

wget https://archive.apache.org/dist/spark/spark-3.4.1/spark-3.4.1-bin-hadoop3.tgz
tar -xzf spark-3.4.1-bin-hadoop3.tgz
sudo mv spark-3.4.1-bin-hadoop3 /usr/local/spark

分发 Spark 到 Worker：

scp -r /usr/local/spark hadoop@192.168.1.101:/usr/local/
scp -r /usr/local/spark hadoop@192.168.1.102:/usr/local/

4.2 配置 Spark

修改 spark-env.sh：

vim $SPARK_HOME/conf/spark-env.sh

添加：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_HOST=192.168.1.100

分发到 Worker：

scp $SPARK_HOME/conf/spark-env.sh hadoop@192.168.1.101:$SPARK_HOME/conf/
scp $SPARK_HOME/conf/spark-env.sh hadoop@192.168.1.102:$SPARK_HOME/conf/

5. 启动 Spark 集群

在 Master 节点启动：

start-history-server.sh

在 Worker1、Worker2 上：

start-slave.sh spark://192.168.1.100:7077

6. 提交 Spark 作业

spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    $SPARK_HOME/examples/jars/spark-examples_2.12-3.4.1.jar 10

访问 UI：

Hadoop ResourceManager UI: http://192.168.1.100:8088
Spark History Server UI: http://192.168.1.100:18080
###########################################################################################################
今日推荐
小说：《灰烬世界》
简介：无女主，东方克苏鲁，无系统，不无敌，怪诞美学，非规则怪谈，科技修真）老爷子说过，有道行的人或者妖怪邪祟，他们死后会化作一捧灰，被称之为秽灰。秽灰里蕴藏着他们毕生能量，食之，便可添命灯，增寿命。若是放任不管，便为秽土转生！不过有一种例外，他们从秽灰里生长出来，长着人的模样，却不是人的思想。他们主张无神论，想颠覆世间，想扳倒众神，他们把器物拆解，拼装，组合，造物，打造出没有智慧的生命，供他们奴役。（又名怪诞修仙学）

Spark on Yarn 多机集群部署

Spark on Yarn 多机集群部署

1. 规划机器角色

2. 配置所有机器

2.1 安装 Java

2.2 免密 SSH

3. 安装 Hadoop 并配置 Yarn

3.1 在所有节点安装 Hadoop

3.2 配置 Master 节点

3.3 配置 core-site.xml

3.4 配置 hdfs-site.xml

3.5 配置 Yarn

3.6 配置 slaves

3.7 启动 Hadoop

4. 安装 Spark

4.1 在所有节点安装 Spark

4.2 配置 Spark

5. 启动 Spark 集群

6. 提交 Spark 作业

相关文章

漏扫问题-服务器中间件版本信息泄露（消除/隐藏Nginx版本号）

Rust 语法噪音这么多，是否适合复杂项目？

神经网络防“失忆“秘籍：弹性权重固化如何让AI学会“温故知新“

MYSQL学习笔记(九)：MYSQL表的“增删改查”

Cursor提示词模板，开发GD32，C语言开发GD32 ARM单片机编程规范提示词大厂风格代码规范

基于EIDE插件，配置arm开发环境

图像处理：模拟色差的生成

力扣hot100——LRU缓存（面试高频考题）