服务器搭Hadoop需配环境、装包、设SSH免密,改core/hdfs-site.xml,格式化NN,启服务验
服务器搭建Hadoop详细指南
环境准备
- 硬件要求
Hadoop集群的性能与服务器硬件配置直接相关,建议最低配置如下:
组件 | 最低要求 | 推荐配置 |
---|---|---|
CPU | 4核以上 | 8核+(主节点)/4核+(从节点) |
内存 | 8GB | 16GB+(主节点)/8GB+(从节点) |
存储 | 1TB(主节点)+ 500GB/从节点 | SSD优先,HDD需RAID优化 |
网络 | 千兆网卡,静态IP | 万兆网卡(大规模集群) |
- 软件依赖
- 操作系统:CentOS 7+/Ubuntu 18+(推荐Linux发行版)。
- JDK:Hadoop 3.x需Java 8+,建议安装OpenJDK 11。
- SSH:需配置免密登录(主节点与从节点之间)。
安装步骤
安装JDK
# 下载并解压 wget https://download.java.net/java/GA/jdk11/0d4d7c3b80b449498b91705b0a6e6ec3/jdk-11_linux-x64_bin.tar.gz tar -zxvf jdk-11_linux-x64_bin.tar.gz -C /usr/local/ # 配置环境变量 echo "export JAVA_HOME=/usr/local/jdk-11" >> /etc/profile echo "export PATH=$JAVA_HOME/bin:$PATH" >> /etc/profile source /etc/profile
配置SSH免密登录
- 在主节点生成密钥:
ssh-keygen -t rsa
- 将公钥复制到所有从节点:
ssh-copy-id user@slave1
- 测试免密登录:
ssh user@slave1 "ls /home"
- 在主节点生成密钥:
上传Hadoop安装包
- 官网下载Hadoop二进制包(如
hadoop-3.4.0.tar.gz
),上传至主节点/opt
目录。 - 解压并配置环境变量:
tar -zxvf hadoop-3.4.0.tar.gz -C /opt/ echo "export HADOOP_HOME=/opt/hadoop-3.4.0" >> /etc/profile echo "export PATH=$HADOOP_HOME/bin:$PATH" >> /etc/profile source /etc/profile
- 官网下载Hadoop二进制包(如
核心配置文件修改
Hadoop的核心配置文件位于$HADOOP_HOME/etc/hadoop
,需根据集群架构修改以下文件:
配置文件 | 关键参数 | 示例值 |
---|---|---|
core-site.xml | fs.defaultFS (NameNode地址) | hdfs://master:9000 |
hdfs-site.xml | dfs.replication (副本数) | 3 |
dfs.namenode.name.dir (NameNode存储路径) | /opt/hadoop-3.4.0/data/namenode | |
dfs.datanode.data.dir (DataNode存储路径) | /opt/hadoop-3.4.0/data/datanode | |
yarn-site.xml | yarn.resourcemanager.hostname | master |
yarn.nodemanager.aux-services | mapreduce_shuffle | |
mapred-site.xml | mapreduce.framework.name | yarn |
mapreduce.jobtracker.address | master:8032 |
启动Hadoop集群
格式化NameNode(仅首次启动时执行)
hdfs namenode -format
启动集群
- 主节点执行:
start-dfs.sh # 启动HDFS(NameNode+DataNode) start-yarn.sh # 启动YARN(ResourceManager+NodeManager)
- 验证状态:
- HDFS Web界面:
http://master:9870
- YARN Web界面:
http://master:8088
- HDFS Web界面:
- 主节点执行:
常见问题与解决
问题 | 解决方案 |
---|---|
集群启动失败 | 检查SSH免密配置; 关闭防火墙( systemctl stop firewalld );确保 JAVA_HOME 正确。 |
数据块副本数不足 | 检查dfs.replication 是否≥3;确保所有DataNode正常连接。 |
YARN任务提交失败 | 检查mapred-site.xml 中JobTracker地址;确认ResourceManager已启动。 |
FAQs
Q1:Hadoop集群中主节点宕机怎么办?
A1:Hadoop默认无高可用(HA)配置时,主节点宕机会导致集群不可用,需通过配置HDFS HA(如Active/Standby模式)或YARN高可用(启用ResourceManager HA)来避免单点故障。
Q2:如何扩展Hadoop集群?
A2:新增从节点后,只需将新节点的SSH公钥加入主节点~/.ssh/authorized_keys
,并在主节点执行hadoop-daemon.sh start nodemanager
即可自动加入集群。
小编有话说
- 版本兼容性:Hadoop 3.x与2.x配置差异较大,需注意
etc/hadoop
目录下的worker
脚本已弃用,改用nodemanager
。 - 安全加固:生产环境建议启用Kerberos认证,并限制
root
用户操作Hadoop服务。 - 日志排查:问题定位优先查看
$HADOOP_HOME/logs
目录下的namenode.log
、datanode.log
和`yarn.
以上内容就是解答有关“服务器搭建hadoop”的详细内容了,我相信这篇文章可以为您解决一些疑惑,有任何问题欢迎留言反馈,谢谢阅读。
【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!
发表回复