如何在 Debian 上运行 Hadoop 作业-117笔记问答

在Debian上运行Hadoop作业，您需要先安装和配置Hadoop环境

配置Hadoop环境变量：编辑~/.bashrc文件，添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件并运行source ~/.bashrc使更改生效。

配置Hadoop：根据您的需求编辑Hadoop配置文件。主要配置文件包括：
- core-site.xml：配置Hadoop核心设置，如默认文件系统。
- hdfs-site.xml：配置HDFS设置，如副本数、数据存储位置等。
- mapred-site.xml：配置MapReduce设置，如作业历史服务器地址等。
- yarn-site.xml：配置YARN设置，如资源管理器地址等。
这些文件位于$HADOOP_HOME/etc/hadoop目录中。根据官方文档和您的实际需求进行配置。
启动Hadoop集群：在命令行中运行以下命令启动Hadoop集群：
```
start-dfs.sh
start-yarn.sh
```
使用jps命令检查进程是否正常运行。
运行Hadoop作业：使用hadoop jar命令运行Hadoop作业。例如：
```
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount input_directory output_directory
```
其中，input_directory是输入数据所在的HDFS目录，output_directory是作业输出结果的HDFS目录。
检查作业结果：使用hdfs dfs -cat命令查看作业输出结果：
```
hdfs dfs -cat output_directory/part-r-00000
```

现在您已经成功在Debian上运行了Hadoop作业。根据需要调整配置以满足您的需求。

如何在 Debian 上运行 Hadoop 作业