要将Debian上的Hadoop与Spark集成,可以按照以下步骤进行操作:
1. 安装Hadoop
首先,需要在Debian系统上安装Hadoop。以下是基于Hadoop 3.2.0和JDK 8的安装步骤:
- 安装JDK 8:
wget https://download.java.net/java/GA/jdk8/9/GPL/openjdk-8u221-b11-linux-x64.tar.gz tar xvf openjdk-8u221-b11-linux-x64.tar.gz -C /usr/lib/jvm ln -s /usr/lib/jvm/jdk1.8.0_221 /usr/lib/jvm/jdk
- 配置环境变量:
echo 'export JAVA_HOME=/usr/lib/jvm/jdk' >> /etc/profile echo 'export PATH=$JAVA_HOME/bin:$PATH' >> /etc/profile source /etc/profile
- 安装Hadoop 3.2.0:
wget http://archive.apache.org/dist/hadoop/core/hadoop-3.2.0/hadoop-3.2.0.tar.gz tar xvf hadoop-3.2.0.tar.gz -C /opt ln -s /opt/hadoop-3.2.0 /opt/hadoop
- 配置Hadoop环境变量:
echo 'export HADOOP_HOME=/opt/hadoop' >> /etc/profile echo 'export PATH=$HADOOP_HOME/bin:$PATH' >> /etc/profile source /etc/profile
- 修改Hadoop配置文件(如
core-site.xml
,hdfs-site.xml
,mapred-site.xml
,yarn-site.xml
)以配置HDFS、YARN等。
2. 安装Spark
接下来,在Debian系统上安装Spark。以下是基于Spark 3.3.2的安装步骤:
- 下载Spark 3.3.2:
wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz tar xvf spark-3.3.2-bin-hadoop3.tgz -C /opt ln -s /opt/spark-3.3.2 /opt/spark
-
配置Spark:
-
复制
spark-defaults.conf.template
到spark-defaults.conf
并修改配置。 -
复制
spark-env.sh.template
到spark-env.sh
并修改配置,例如设置HADOOP_CONF_DIR
和HADOOP_HOME
。
3. 配置Hadoop和Spark的集成
- 修改
spark-defaults.conf
以使用Hadoop YARN作为集群管理器。 - 修改
spark-env.sh
以包含Hadoop的配置文件路径。 - 删除Spark自带的Hadoop相关jar包,并添加自定义的Hadoop jar包路径。
- 将Hive的配置文件
hive-site.xml
复制到Spark的配置目录。
4. 启动Hadoop和Spark
- 启动Hadoop集群:
start-dfs.sh start-yarn.sh
- 验证Hadoop和Spark是否正常运行:
hdfs dfsadmin -report yarn node -list
5. 运行Spark应用程序
使用spark-submit
脚本提交Spark应用程序到Hadoop集群:
./bin/spark-submit \ --class\ --master yarn \ --deploy-mode \ --conf = \ ... # other options \ [application-arguments]
请注意,具体的配置步骤可能会根据实际使用的Hadoop和Spark版本有所不同。建议参考官方文档以获取详细的配置指南。