在Linux上高效部署Hadoop可以遵循以下步骤:
环境准备
- 选择合适的Linux发行版:推荐使用Ubuntu 20.04 LTS或CentOS 7,因为它们有稳定的社区支持和丰富的文档资源。
- 安装Java环境:Hadoop需要Java运行环境,推荐使用OpenJDK。使用以下命令安装:
sudo apt update sudo apt install openjdk-11-jdk
- 更新系统包:确保系统包是最新的:
sudo apt update && sudo apt upgrade
Hadoop安装与配置
- 下载Hadoop:从Apache Hadoop官网下载最新版本的Hadoop安装包,例如Hadoop 3.3.5。
- 解压Hadoop:将下载的压缩包解压到指定目录,例如
/usr/local/hadoop
:sudo tar -zxvf hadoop-3.3.5.tar.gz -C /usr/local/hadoop
- 配置环境变量:编辑
~/.bashrc
文件,添加以下内容:export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:source ~/.bashrc
- 配置Hadoop核心文件:
- core-site.xml:
fs.defaultFS hdfs://localhost:9000 - hdfs-site.xml:
dfs.replication 1 - mapred-site.xml:
mapreduce.framework.name yarn - yarn-site.xml:
yarn.nodemanager.aux-services mapreduce_shuffle
- core-site.xml:
SSH免密登录配置
- 生成SSH密钥:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
- 将公钥复制到其他节点:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ssh-copy-id hadoop@node2 ssh-copy-id hadoop@node3
启动Hadoop集群
- 格式化NameNode:
hdfs namenode -format
- 启动HDFS和YARN:
start-dfs.sh start-yarn.sh
- 验证Hadoop是否启动成功:
- 使用
jps
命令查看进程:jps
- 访问Hadoop Web界面:
- HDFS: http://localhost:50070
- YARN: http://localhost:8088
- 使用
配置优化
- 增大同时打开文件描述符和网络连接上限:
sudo sysctl -w net.core.somaxconn=32767 sudo sysctl -w fs.file-max=800000
- 关闭swap分区:
sudo swapoff -a
- 设置合理的预读取缓冲区大小:
sudo blockdev --setra 32768 /dev/sda
通过以上步骤,您可以在Linux上高效地部署和配置Hadoop。确保每一步都仔细执行,并根据需要调整配置以适应您的具体需求和环境。