服务器搭建hadoop

服务器搭Hadoop需配环境、装包、设SSH免密,改core/hdfs-site.xml,格式化NN,启服务验

服务器搭建Hadoop详细指南

环境准备

  1. 硬件要求
    Hadoop集群的性能与服务器硬件配置直接相关,建议最低配置如下:
组件 最低要求 推荐配置
CPU 4核以上 8核+(主节点)/4核+(从节点)
内存 8GB 16GB+(主节点)/8GB+(从节点)
存储 1TB(主节点)+ 500GB/从节点 SSD优先,HDD需RAID优化
网络 千兆网卡,静态IP 万兆网卡(大规模集群)
  1. 软件依赖
    • 操作系统:CentOS 7+/Ubuntu 18+(推荐Linux发行版)。
    • JDK:Hadoop 3.x需Java 8+,建议安装OpenJDK 11。
    • SSH:需配置免密登录(主节点与从节点之间)。

安装步骤

  1. 安装JDK

    服务器搭建hadoop

    # 下载并解压
    wget https://download.java.net/java/GA/jdk11/0d4d7c3b80b449498b91705b0a6e6ec3/jdk-11_linux-x64_bin.tar.gz
    tar -zxvf jdk-11_linux-x64_bin.tar.gz -C /usr/local/
    # 配置环境变量
    echo "export JAVA_HOME=/usr/local/jdk-11" >> /etc/profile
    echo "export PATH=$JAVA_HOME/bin:$PATH" >> /etc/profile
    source /etc/profile
  2. 配置SSH免密登录

    • 在主节点生成密钥:ssh-keygen -t rsa
    • 将公钥复制到所有从节点:ssh-copy-id user@slave1
    • 测试免密登录:ssh user@slave1 "ls /home"
  3. 上传Hadoop安装包

    • 官网下载Hadoop二进制包(如hadoop-3.4.0.tar.gz),上传至主节点/opt目录。
    • 解压并配置环境变量:
      tar -zxvf hadoop-3.4.0.tar.gz -C /opt/
      echo "export HADOOP_HOME=/opt/hadoop-3.4.0" >> /etc/profile
      echo "export PATH=$HADOOP_HOME/bin:$PATH" >> /etc/profile
      source /etc/profile

核心配置文件修改

Hadoop的核心配置文件位于$HADOOP_HOME/etc/hadoop,需根据集群架构修改以下文件:

服务器搭建hadoop

配置文件 关键参数 示例值
core-site.xml fs.defaultFS(NameNode地址) hdfs://master:9000
hdfs-site.xml dfs.replication(副本数) 3
dfs.namenode.name.dir(NameNode存储路径) /opt/hadoop-3.4.0/data/namenode
dfs.datanode.data.dir(DataNode存储路径) /opt/hadoop-3.4.0/data/datanode
yarn-site.xml yarn.resourcemanager.hostname master
yarn.nodemanager.aux-services mapreduce_shuffle
mapred-site.xml mapreduce.framework.name yarn
mapreduce.jobtracker.address master:8032

启动Hadoop集群

  1. 格式化NameNode(仅首次启动时执行)

    hdfs namenode -format
  2. 启动集群

    • 主节点执行:
      start-dfs.sh    # 启动HDFS(NameNode+DataNode)
      start-yarn.sh   # 启动YARN(ResourceManager+NodeManager)
    • 验证状态:
      • HDFS Web界面:http://master:9870
      • YARN Web界面:http://master:8088

常见问题与解决

问题 解决方案
集群启动失败 检查SSH免密配置;
关闭防火墙(systemctl stop firewalld);
确保JAVA_HOME正确。
数据块副本数不足 检查dfs.replication是否≥3;
确保所有DataNode正常连接。
YARN任务提交失败 检查mapred-site.xml中JobTracker地址;
确认ResourceManager已启动。

FAQs

Q1:Hadoop集群中主节点宕机怎么办?
A1:Hadoop默认无高可用(HA)配置时,主节点宕机会导致集群不可用,需通过配置HDFS HA(如Active/Standby模式)或YARN高可用(启用ResourceManager HA)来避免单点故障。

服务器搭建hadoop

Q2:如何扩展Hadoop集群?
A2:新增从节点后,只需将新节点的SSH公钥加入主节点~/.ssh/authorized_keys,并在主节点执行hadoop-daemon.sh start nodemanager即可自动加入集群。


小编有话说

  1. 版本兼容性:Hadoop 3.x与2.x配置差异较大,需注意etc/hadoop目录下的worker脚本已弃用,改用nodemanager
  2. 安全加固:生产环境建议启用Kerberos认证,并限制root用户操作Hadoop服务。
  3. 日志排查:问题定位优先查看$HADOOP_HOME/logs目录下的namenode.logdatanode.log和`yarn.

以上内容就是解答有关“服务器搭建hadoop”的详细内容了,我相信这篇文章可以为您解决一些疑惑,有任何问题欢迎留言反馈,谢谢阅读。

【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!

(0)
热舞的头像热舞
上一篇 2025-05-04 13:27
下一篇 2025-05-04 13:58

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

QQ-14239236

在线咨询: QQ交谈

邮件:asy@cxas.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信