在Debian上搭建Hadoop集群涉及多个步骤,包括准备节点、安装Java环境、配置网络、安装Hadoop以及配置Hadoop集群。以下是一个详细的步骤指南:
1. 准备节点
- 静态网络配置:编辑
/etc/network/interfaces
文件,注释掉自动获取IP的部分,并添加静态IP配置。 - 修改
/etc/hosts
文件:添加所有节点的IP地址和主机名。 - 安装OpenSSH服务器:
sudo apt-get install openssh-server
- 生成SSH密钥:在各节点上执行
ssh-keygen
命令生成SSH密钥。 - 免密码登录:使用
ssh-copy-id
命令将公钥复制到其他节点,实现免密码登录。 - 创建用户和用户组:在各节点上创建用户
hadoop
并设置用户组。
2. 安装Java环境
- 更新系统:
sudo apt update && sudo apt upgrade
- 添加Debian仓库:
sudo apt install apt-transport-https ca-certificates curl gnupg2 software-properties-common curl -fsSL https://deb.nodesource.com/setup_14.x | sudo -E bash - sudo apt-get install -y nodejs
- 安装Java 11:
sudo apt update sudo apt install adoptopenjdk-11-hotspot
- 验证Java安装:
java -version
3. 安装Hadoop
- 下载Hadoop:从Apache镜像下载稳定版本的Hadoop。
- 解压Hadoop安装包:将Hadoop解压到
/opt
目录。 - 创建Hadoop软链接:
sudo ln -sf /opt/hadoop-3.2.0 /opt/hadoop
- 创建日志和HDFS目录:
sudo mkdir -p /opt/hadoop/logs sudo mkdir -p /opt/hadoop/hdfs/name sudo mkdir -p /opt/hadoop/hdfs/data
- 配置Hadoop环境变量:
- 创建
/etc/profile.d/hadoop.sh
文件,添加以下内容:export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 使配置文件生效:
source /etc/profile
- 创建
4. 配置Hadoop集群
- 配置Hadoop环境变量:
- 编辑
/etc/hadoop/hadoop-env.sh
文件,设置JAVA_HOME
。
- 编辑
- 配置
core-site.xml
:fs.defaultFS hdfs://master:9000 - 配置
hdfs-site.xml
:dfs.replication 1 dfs.namenode.name.dir /opt/hadoop/hdfs/name - 配置
yarn-site.xml
:yarn.resourcemanager.hostname master yarn.nodemanager.aux-services mapreduce_shuffle - 配置
mapred-site.xml
(如果使用MapReduce):mapreduce.framework.name yarn
5. 启动Hadoop集群
- 格式化NameNode:
hdfs namenode -format
- 启动Hadoop集群:
start-dfs.sh start-yarn.sh
- 检查集群状态:
- 使用
jps
命令检查各个守护进程是否启动。 - 访问Hadoop Web UI:
http://master:9000
- 使用
请注意,以上步骤是一个基本的指南,具体配置可能需要根据实际需求进行调整。在搭建集群之前,建议详细阅读Hadoop官方文档,并根据实际情况进行相应的配置。