服务器搭建hadoop

服务器搭Hadoop需配环境、装包、设SSH免密，改core/hdfs-site.xml，格式化NN，启服务验

服务器搭建Hadoop详细指南

环境准备

硬件要求
Hadoop集群的性能与服务器硬件配置直接相关，建议最低配置如下：

组件	最低要求	推荐配置
CPU	4核以上	8核+（主节点）/4核+（从节点）
内存	8GB	16GB+（主节点）/8GB+（从节点）
存储	1TB（主节点）+ 500GB/从节点	SSD优先，HDD需RAID优化
网络	千兆网卡，静态IP	万兆网卡（大规模集群）

软件依赖
- 操作系统：CentOS 7+/Ubuntu 18+（推荐Linux发行版）。
- JDK：Hadoop 3.x需Java 8+，建议安装OpenJDK 11。
- SSH：需配置免密登录（主节点与从节点之间）。

安装步骤

安装JDK

服务器搭建hadoop

# 下载并解压
wget https://download.java.net/java/GA/jdk11/0d4d7c3b80b449498b91705b0a6e6ec3/jdk-11_linux-x64_bin.tar.gz
tar -zxvf jdk-11_linux-x64_bin.tar.gz -C /usr/local/
# 配置环境变量
echo "export JAVA_HOME=/usr/local/jdk-11" >> /etc/profile
echo "export PATH=$JAVA_HOME/bin:$PATH" >> /etc/profile
source /etc/profile

配置SSH免密登录
- 在主节点生成密钥：ssh-keygen -t rsa
- 将公钥复制到所有从节点：ssh-copy-id user@slave1
- 测试免密登录：ssh user@slave1 "ls /home"

上传Hadoop安装包

官网下载Hadoop二进制包（如hadoop-3.4.0.tar.gz），上传至主节点/opt目录。

解压并配置环境变量：

tar -zxvf hadoop-3.4.0.tar.gz -C /opt/
echo "export HADOOP_HOME=/opt/hadoop-3.4.0" >> /etc/profile
echo "export PATH=$HADOOP_HOME/bin:$PATH" >> /etc/profile
source /etc/profile

核心配置文件修改

Hadoop的核心配置文件位于$HADOOP_HOME/etc/hadoop，需根据集群架构修改以下文件：

配置文件	关键参数	示例值
`core-site.xml`	`fs.defaultFS`（NameNode地址）	`hdfs://master:9000`
`hdfs-site.xml`	`dfs.replication`（副本数）	`3`
`dfs.namenode.name.dir`（NameNode存储路径）	`/opt/hadoop-3.4.0/data/namenode`
`dfs.datanode.data.dir`（DataNode存储路径）	`/opt/hadoop-3.4.0/data/datanode`
`yarn-site.xml`	`yarn.resourcemanager.hostname`	`master`
`yarn.nodemanager.aux-services`	`mapreduce_shuffle`
`mapred-site.xml`	`mapreduce.framework.name`	`yarn`
`mapreduce.jobtracker.address`	`master:8032`

启动Hadoop集群

格式化NameNode（仅首次启动时执行）
```
hdfs namenode -format
```
启动集群
- 主节点执行：
```
start-dfs.sh    # 启动HDFS（NameNode+DataNode）
start-yarn.sh   # 启动YARN（ResourceManager+NodeManager）
```
- 验证状态：
  - HDFS Web界面：http://master:9870
  - YARN Web界面：http://master:8088

常见问题与解决

问题	解决方案
集群启动失败	检查SSH免密配置；关闭防火墙（`systemctl stop firewalld`）；确保`JAVA_HOME`正确。
数据块副本数不足	检查`dfs.replication`是否≥3；确保所有DataNode正常连接。
YARN任务提交失败	检查`mapred-site.xml`中JobTracker地址；确认ResourceManager已启动。

FAQs

Q1：Hadoop集群中主节点宕机怎么办？
A1：Hadoop默认无高可用（HA）配置时，主节点宕机会导致集群不可用，需通过配置HDFS HA（如Active/Standby模式）或YARN高可用（启用ResourceManager HA）来避免单点故障。

Q2：如何扩展Hadoop集群？
A2：新增从节点后，只需将新节点的SSH公钥加入主节点~/.ssh/authorized_keys，并在主节点执行hadoop-daemon.sh start nodemanager即可自动加入集群。

小编有话说

版本兼容性：Hadoop 3.x与2.x配置差异较大，需注意etc/hadoop目录下的worker脚本已弃用，改用nodemanager。
安全加固：生产环境建议启用Kerberos认证，并限制root用户操作Hadoop服务。
日志排查：问题定位优先查看$HADOOP_HOME/logs目录下的namenode.log、datanode.log和`yarn.

以上内容就是解答有关“服务器搭建hadoop”的详细内容了，我相信这篇文章可以为您解决一些疑惑，有任何问题欢迎留言反馈，谢谢阅读。

服务器搭建hadoop

服务器搭建Hadoop详细指南

环境准备