在CentOS上配置Hadoop分布式文件系统(HDFS)是一个相对复杂的过程,需要多个步骤。以下是一个基本的步骤指南,假设你要配置一个单机版的HDFS集群。请注意,这些步骤可能会根据具体的版本和需求有所不同。
1. 环境准备
- 安装Java:HDFS需要Java环境,首先确保Java已安装。
- 安装SSH:配置SSH免密登录,以便在节点之间进行无密码访问。
2. 下载并解压Hadoop
- 从Apache Hadoop官网下载对应版本的Hadoop安装包。
- 解压安装包到你指定的目录。
3. 配置环境变量
- 编辑
/etc/profile
文件,添加Hadoop的路径和库路径。 - 使用
source /etc/profile
命令使配置生效。
4. 配置Hadoop配置文件
- core-site.xml:配置HDFS的默认文件系统和临时目录。
- hdfs-site.xml:配置HDFS的数据节点目录、副本数等。
- mapred-site.xml:配置MapReduce框架。
- yarn-site.xml:配置YARN资源管理器。
5. 格式化NameNode
- 在NameNode节点上执行
hdfs namenode -format
命令,初始化文件系统。
6. 启动HDFS
- 启动NameNode和DataNode服务。
7. 验证配置
- 使用
jps
命令检查进程,确保NameNode和DataNode正在运行。 - 通过Web界面(通常是
http://namenode-host:port
)访问HDFS。
具体步骤示例
安装Java
yum install java-1.8.0-openjdk-devel -y
配置SSH免密登录
ssh-keygen -t rsa ssh-copy-id localhost
下载并解压Hadoop
wget https://downloads.apache.org/hadoop/core/hadoop-3.2.4/hadoop-3.2.4.tar.gz tar -zxvf hadoop-3.2.4.tar.gz -C /opt/
配置环境变量
echo "export HADOOP_HOME=/opt/hadoop-3.2.4" >> /etc/profile echo "export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin" >> /etc/profile source /etc/profile
配置Hadoop配置文件
- core-site.xml:
fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir /usr/local/hadoop/tmp - hdfs-site.xml:
dfs.namenode.name.dir /usr/local/hadoop/hdfs/namenode dfs.datanode.data.dir /usr/local/hadoop/hdfs/datanode dfs.replication 1 - mapred-site.xml:
mapreduce.framework.name yarn - yarn-site.xml:
yarn.resourcemanager.address localhost:8032 yarn.nodemanager.aux-services mapreduce_shuffle
格式化NameNode
hdfs namenode -format
启动HDFS
/opt/hadoop-3.2.4/sbin/start-dfs.sh
验证配置
jps
访问HDFS Web界面:http://localhost:9000