在Debian上运行Hadoop作业,您需要先安装和配置Hadoop环境
-
安装Java: Hadoop需要Java运行环境。首先,确保您的Debian系统已经安装了Java。如果没有,请运行以下命令来安装OpenJDK:
sudo apt update sudo apt install openjdk-11-jdk
确认Java已正确安装:
java -version
-
下载并解压Hadoop: 访问Hadoop官方网站(https://hadoop.apache.org/releases.html)下载适用于Debian的Hadoop版本。将下载的文件解压到合适的位置,例如
/usr/local/hadoop
。wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz sudo tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/ sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
-
配置Hadoop环境变量: 编辑
~/.bashrc
文件,添加以下内容:export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存文件并运行
source ~/.bashrc
使更改生效。 -
配置Hadoop: 根据您的需求编辑Hadoop配置文件。主要配置文件包括:
core-site.xml
:配置Hadoop核心设置,如默认文件系统。hdfs-site.xml
:配置HDFS设置,如副本数、数据存储位置等。mapred-site.xml
:配置MapReduce设置,如作业历史服务器地址等。yarn-site.xml
:配置YARN设置,如资源管理器地址等。
这些文件位于
$HADOOP_HOME/etc/hadoop
目录中。根据官方文档和您的实际需求进行配置。 -
启动Hadoop集群: 在命令行中运行以下命令启动Hadoop集群:
start-dfs.sh start-yarn.sh
使用
jps
命令检查进程是否正常运行。 -
运行Hadoop作业: 使用
hadoop jar
命令运行Hadoop作业。例如:hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount input_directory output_directory
其中,
input_directory
是输入数据所在的HDFS目录,output_directory
是作业输出结果的HDFS目录。 -
检查作业结果: 使用
hdfs dfs -cat
命令查看作业输出结果:hdfs dfs -cat output_directory/part-r-00000
现在您已经成功在Debian上运行了Hadoop作业。根据需要调整配置以满足您的需求。