在CentOS操作系统上部署CDH(Cloudera Distribution including Apache Hadoop)5.7.0版本,是企业构建大数据平台常见的选择,CDH作为Cloudera提供的开源大数据管理平台,集成了Hadoop、Hive、HBase、Spark等众多组件,为企业提供了稳定、可扩展的数据存储和处理能力,本文将详细介绍在CentOS上安装和配置CDH 5.7.0的关键步骤及注意事项,帮助读者顺利完成平台搭建。

系统环境准备
在开始安装CDH之前,确保CentOS系统满足基本要求,推荐使用CentOS 6.5或7.x版本,64位操作系统,至少4GB内存(建议8GB以上),50GB可用磁盘空间,关闭防火墙和SELinux,避免网络访问权限问题,执行以下命令关闭防火墙:
systemctl stop firewalld systemctl disable firewalld setenforce 0
配置主机名与hosts文件,确保集群内节点可以通过主机名互相访问,在/etc/hosts中添加:
168.1.10 master 192.168.1.11 slave1 192.168.1.12 slave2
建议创建一个专门用于Hadoop的用户(如hadoop),并配置免密登录,简化集群管理。
安装JDK与依赖包
CDH 5.7.0依赖Java环境,推荐安装Oracle JDK 1.7或OpenJDK 1.7,通过yum安装OpenJDK:
yum install java-1.7.0-openjdk-devel -y
验证Java安装是否成功:
java -version
安装CDH所需的依赖包,包括python、libsqlite、rsync等:

yum install -y python libsqlite3x0 rsync redhat-lsb
添加Cloudera Manager与CDH仓库
Cloudera Manager是CDH集群的管理工具,可通过官方仓库安装,首先下载Cloudera Manager的仓库文件:
wget https://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.7.0/RPMS/x86_64/cloudera-manager-agent-5.7.0-1.cm5701.p0.67.el6.x86_64.rpm wget https://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.7.0/RPMS/x86_64/cloudera-manager-server-5.7.0-1.cm5701.p0.67.el6.x86_64.rpm
安装Cloudera Manager服务端和代理端:
yum localinstall cloudera-manager-server-5.7.0-1.cm5701.p0.67.el6.x86_64.rpm cloudera-manager-agent-5.7.0-1.cm5701.p0.67.el6.x86_64.rpm -y
配置CDH仓库,创建/etc/yum.repos.d/cloudera-cdh5.repo文件,添加以下内容:
[cdh5] name=CDH5 baseurl=https://archive.cloudera.com/cdh5/5.7.0/redhat/6/x86_64/cdh/5/ gpgcheck=0 enabled=1
执行yum clean all和yum makecache更新仓库缓存。
部署CDH集群
启动Cloudera Manager服务端:
service cloudera-scm-server start
首次启动可能需要几分钟时间,可通过tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log查看日志,服务启动后,访问http://master:7180(master为Cloudera Manager服务器主机名),使用admin/admin登录Web界面。

在Web界面中,创建新集群,添加节点(如slave1、slave2),并选择要安装的组件(如HDFS、YARN、Hive、HBase等),根据集群规模调整服务配置,例如HDFS的副本数、YARN的内存分配等,配置完成后,点击“继续”开始自动安装和部署。
验证集群功能
集群部署完成后,可通过以下方式验证功能是否正常:
- HDFS验证:执行
hdfs dfs -mkdir /test创建目录,hdfs dfs -put /etc/hosts /test上传文件,hdfs dfs -cat /test/hosts查看文件内容。 - YARN验证:提交一个MapReduce任务,如
hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /test/hosts /output。 - Hive验证:进入Hive命令行,执行
CREATE TABLE test_table (id INT, name STRING);创建表,并插入数据查询。
常见问题与优化
部署过程中可能遇到节点无法连接、服务启动失败等问题,通常检查防火墙设置、磁盘空间、JDK版本是否匹配,建议定期备份Cloudera Manager数据库,并通过Cloudera Manager监控集群性能,及时调整资源配置。
FAQs
Q1: 安装CDH时提示“Package cloudera-manager-server not found”如何解决?
A: 此问题通常是由于仓库配置错误或网络连接问题导致,请检查/etc/yum.repos.d/cloudera-cdh5.repo文件中的baseurl是否正确,确保可以访问Cloudera的官方仓库,同时执行yum clean all清除缓存后重试。
Q2: CDH集群中HDFS DataNode启动失败怎么办?
A: 首先查看DataNode日志(通常位于/var/log/hadoop-hdfs/),常见原因包括磁盘权限不足、磁盘空间不足或HDFS配置错误,检查DataNode数据目录(如/var/lib/hadoop-hdfs/cache/hadoop/dfs/data)的权限是否为hadoop:hadoop,并确保磁盘剩余空间大于配置的阈值(默认默认为10%)。
【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!
发表回复