CentOS7下Keepalived主备切换不生效如何排查？

在现代互联网架构中,服务的高可用性是保障业务连续性的基石，任何单点故障都可能导致服务中断，造成用户体验下降乃至经济损失，在众多高可用解决方案中，Keepalived 以其轻量、高效和稳定的特点，在 Linux 环境下，特别是 CentOS 7 系统中，得到了广泛的应用，它通过 VRRP（虚拟路由冗余协议）协议实现服务器的故障转移，确保关键服务在主节点出现问题时，能够无缝切换到备用节点，从而对外提供一个稳定、可靠的虚拟服务入口。

Keepalived 的核心工作原理

要理解 Keepalived，首先需要掌握其两个核心组件：VRRP 协议和健康检查机制。

VRRP (Virtual Router Redundancy Protocol)

VRRP 是一种容错协议，它将一组路由器（在 Keepalived 场景下即服务器）虚拟成一个虚拟路由器，这个虚拟路由器拥有一个统一的虚拟 IP 地址（VIP），在这组服务器中，一台作为主节点（MASTER），其余作为备用节点（BACKUP）。

主节点（MASTER）：拥有最高优先级，负责处理所有发送到虚拟 IP 的请求，它会周期性地发送 VRRP 广播报文，通知其他备用节点自己仍然存活。
备用节点（BACKUP）：处于监听状态，接收主节点的广播报文，如果在设定的时间内（称为“ advert_int”和“master_down_interval”）没有收到主节点的报文，备用节点就会认为主节点已经宕机，并立即发起选举，优先级最高的备用节点将成为新的主节点，接管虚拟 IP 地址，继续提供服务。

这个过程对于客户端来说是完全透明的,客户端始终访问的是同一个虚拟 IP，无需关心背后是哪一台物理服务器在响应。

健康检查

VRRP 只能检测服务器本身的存活状态（网络层面），但如果服务器存活，但其上运行的关键服务（如 Nginx、MySQL）已经停止响应，VRRP 就无能为力了，这时，Keepalived 的健康检查功能就派上了用场。

Keepalived 可以定期执行自定义的脚本来检查特定服务的状态，可以编写一个脚本检查 Nginx 进程是否存在，或者尝试访问一个特定的 URL 来判断 Web 服务是否正常，如果检查失败，Keepalived 会主动降低本机的优先级，从而触发一次主备切换，即使服务器本身网络是通的，这实现了从“主机存活”到“服务可用”的深度监控。

在 CentOS 7 上安装与配置 Keepalived

下面我们通过一个经典的案例,演示如何在两台 CentOS 7 服务器上部署 Keepalived，为 Nginx 服务提供高可用。

环境准备：

角色	主机名	IP 地址	系统
主节点 (MASTER)	centos7-master	168.1.101	CentOS 7
备用节点 (BACKUP)	centos7-backup	168.1.102	CentOS 7
虚拟 IP (VIP)	N/A	168.1.200	N/A

第一步：安装 Keepalived 和 Nginx

在两台服务器上分别执行以下命令：

# 安装 EPEL 源（如果未安装）
sudo yum install -y epel-release
# 安装 Nginx 和 Keepalived
sudo yum install -y nginx keepalived

第二步：配置 Nginx（可选，用于测试）

为了方便测试,可以为两台服务器的 Nginx 设置不同的首页，以便区分访问的是哪台机器。

在 centos7-master 上：

echo "<h1>Master Server - 192.168.1.101</h1>" | sudo tee /usr/share/nginx/html/index.html

在 centos7-backup 上：

echo "<h1>Backup Server - 192.168.1.102</h1>" | sudo tee /usr/share/nginx/html/index.html

然后启动并设置 Nginx 开机自启：

sudo systemctl start nginx
sudo systemctl enable nginx

第三步：配置 Keepalived

Keepalived 的主配置文件是 /etc/keepalived/keepalived.conf。

主节点 (centos7-master) 配置：

编辑 /etc/keepalived/keepalived.conf 文件，内容如下：

! Configuration File for keepalived
global_defs {
   router_id LVS_DEVEL_01 # 一个唯一的标识符
}
# 定义一个健康检查脚本
vrrp_script check_nginx {
    script "/usr/local/bin/check_nginx.sh" # 脚本路径
    interval 2 # 每2秒检查一次
    weight -20 # 检查失败，优先级降低20
}
vrrp_instance VI_1 {
    state MASTER # 定义角色为主节点
    interface ens33 # 绑定的网卡名称（请根据实际情况修改，如 eth0）
    virtual_router_id 51 # 虚拟路由ID，主备必须一致
    priority 100 # 优先级，主节点应高于备用节点
    advert_int 1 # 主备间通信间隔（秒）
    authentication {
        auth_type PASS # 认证类型
        auth_pass 1111 # 认证密码，主备必须一致
    }
    virtual_ipaddress {
        192.168.1.200 # 虚拟IP地址
    }
    track_script {
        check_nginx # 调用上面定义的检查脚本
    }
}

备用节点 (centos7-backup) 配置：

编辑 /etc/keepalived/keepalived.conf 文件，内容与主节点基本相同，只需修改 state 和 priority：

! Configuration File for keepalived
global_defs {
   router_id LVS_DEVEL_02 # 修改标识符
}
vrrp_script check_nginx {
    script "/usr/local/bin/check_nginx.sh"
    interval 2
    weight -20
}
vrrp_instance VI_1 {
    state BACKUP # 定义角色为备用节点
    interface ens33 # 网卡名称
    virtual_router_id 51 # 必须与主节点一致
    priority 90 # 优先级低于主节点
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111 # 必须与主节点一致
    }
    virtual_ipaddress {
        192.168.1.200 # 虚拟IP地址
    }
    track_script {
        check_nginx
    }
}

第四步：创建健康检查脚本

在两台服务器上，都创建健康检查脚本 /usr/local/bin/check_nginx.sh：

sudo touch /usr/local/bin/check_nginx.sh
sudo chmod +x /usr/local/bin/check_nginx.sh

如下：

#!/bin/bash
# 检查nginx进程是否存在
if [ `ps -C nginx --no-header | wc -l` -eq 0 ]; then
    # 如果nginx不存在，尝试启动一次
    systemctl start nginx
    sleep 2
    # 再次检查，如果仍不存在，则退出脚本，返回1，触发keepalived降权
    if [ `ps -C nginx --no-header | wc -l` -eq 0 ]; then
        exit 1
    else
        exit 0
    fi
else
    exit 0
fi

这个脚本首先检查 Nginx 进程，如果不存在，它会尝试重启 Nginx，如果重启失败，脚本会返回状态码 1，Keepalived 捕获到这个非零返回值后，就会执行 weight -20 的操作，将本机优先级降低（例如主节点从 100 降到 80），低于备用节点的 90，从而触发 VIP 漂移。

第五步：启动 Keepalived 并测试

在两台服务器上启动并设置 Keepalived 开机自启：

sudo systemctl start keepalived
sudo systemctl enable keepalived

测试过程：

验证 VIP 绑定：在主节点上执行 ip addr show ens33，你会看到 168.1.200 这个虚拟 IP 已经绑定在 ens33 网卡上，在备用节点上执行同样命令，则看不到 VIP。
访问服务：在局域网内任意一台机器上，通过浏览器或 curl 访问 http://192.168.1.200，你会看到主节点（Master Server）的页面。
模拟服务故障：在主节点上停止 Nginx 服务：sudo systemctl stop nginx。
观察故障转移：等待几秒钟后，再次在备用节点上执行 ip addr show ens33，你会发现在备用节点的网卡上出现了 168.1.200，再次访问 http://192.168.1.200会变成备用节点（Backup Server）的页面，查看 Keepalived 日志 tail -f /var/log/messages，可以看到状态切换的详细记录。
恢复服务：重新启动主节点的 Nginx 和 Keepalived 服务，VIP 将会重新漂移回优先级更高的主节点。

通过以上步骤,我们成功地在 CentOS 7 上部署了一个基于 Keepalived 的高可用 Nginx 服务集群，Keepalived 的配置灵活，功能强大，是实现各类关键服务高可用性的重要工具。

CentOS7下Keepalived主备切换不生效如何排查？

Keepalived 的核心工作原理

在 CentOS 7 上安装与配置 Keepalived

相关问答 (FAQs)

发表回复

广告合作

QQ：14239236

CentOS7下Keepalived主备切换不生效如何排查？

Keepalived 的核心工作原理

在 CentOS 7 上安装与配置 Keepalived

相关问答 (FAQs)

相关推荐

反馈中心 磁盘_反馈

分布式关系型数据库mysql_准备环境

flavors_规格查询

CentOS 6.5系统如何使用命令安全关机？

发表回复

广告合作

QQ：14239236

反馈中心磁盘_反馈