在Debian上搭建Hadoop开发环境需要以下几个步骤:
1. 安装Java开发环境(JDK)
首先,需要在Debian系统上安装Java开发环境。可以通过以下命令安装OpenJDK:
sudo apt update sudo apt install openjdk-11-jdk -y
安装完成后,设置JAVA_HOME环境变量:
sudo nano /etc/environment
在文件末尾添加以下行(请根据你安装的JDK版本调整路径):
JAVA_HOME="/usr/lib/jvm/java-11-openjdk-amd64"
保存文件并退出,然后刷新环境变量:
source /etc/environment
验证Java是否安装成功:
java -version
2. 安装Hadoop
下载适合Debian的Hadoop版本。例如,下载Hadoop 3.3.6:
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz
通过验证SHA-256校验和确保下载未损坏:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz.sha512 sha256sum -c hadoop-3.3.6-src.tar.gz.sha512
为Hadoop创建一个目录并提取下载的存档:
sudo mkdir /opt/hadoops sudo tar -xzvf hadoop-3.3.6-src.tar.gz -C /opt/hadoops --strip-components 1
3. 配置Hadoop环境变量
编辑/etc/profile
文件,添加以下内容:
export HADOOP_HOME="/opt/hadoops/hadoop-3.3.6" export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
刷新profile变量:
source /etc/profile
4. 配置Hadoop核心配置文件
编辑core-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
添加以下内容:
fs.defaultFS hdfs://localhost:9000
编辑hdfs-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
添加以下内容:
dfs.replication 1 dfs.namenode.name.dir /opt/hadoops/hdfs/namenode
编辑mapred-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
添加以下内容:
mapreduce.framework.name yarn
编辑yarn-site.xml
文件:
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
添加以下内容:
yarn.nodemanager.aux-services mapreduce_shuffle
5. 设置SSH无密码登录
为Hadoop用户生成SSH密钥:
sudo su - hadoop ssh-keygen -t rsa -P ""
将公钥复制到authorized_keys
文件:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
测试与本地主机和其他节点的SSH连接:
ssh localhost
6. 格式化NameNode
在启动Hadoop服务之前,需要格式化NameNode:
hdfs namenode -format
7. 启动Hadoop服务
启动Hadoop NameNode和DataNode:
start-dfs.sh start-yarn.sh
8. 验证Hadoop安装
使用以下命令检查Hadoop集群的状态:
hdfs dfsadmin -report
访问NameNode Web界面:
http://localhost:9870
至此,Debian上的Hadoop开发环境搭建完成。