Web服务器端监控指标，哪些最关键？

Web服务器端的监控指标是确保系统稳定运行、优化性能以及快速定位问题的关键，通过对这些指标的持续跟踪和分析，运维团队能够及时发现潜在问题，保障用户体验，同时为系统扩容和性能调优提供数据支持，以下是Web服务器端监控的核心指标及其重要性。

资源监控指标

资源监控主要关注服务器硬件和基础软件的运行状态,确保系统资源未被过度占用。

CPU使用率
CPU是服务器的核心处理单元，高使用率可能导致请求响应延迟，需监控整体CPU使用率、用户态与内核态CPU时间占比，以及单核负载，若用户态CPU占比过高，可能是业务逻辑复杂；内核态占比过高则可能涉及网络或磁盘I/O瓶颈。
内存使用情况
内存不足会触发交换分区（Swap），导致性能急剧下降，需监控已用内存、空闲内存、缓存（Cache）及缓冲区（Buffer）占用，以及Swap使用量，长期Swap使用需警惕，通常意味着物理内存不足。
磁盘I/O性能
磁盘I/O直接影响读写速度，需监控磁盘读写速率（IOPS）、平均等待时间（await）以及磁盘空间使用率。await值过高表示磁盘响应慢，可能存在磁盘瓶颈或文件系统碎片问题。

应用性能指标直接反映服务端处理请求的能力和效率,是优化用户体验的核心。

响应时间
包括平均响应时间、P95（95%请求的响应时间）和P99（99%请求的响应时间），P99/P95更能反映极端请求的延迟情况，避免平均值掩盖性能问题。
吞吐量
衡量单位时间内处理的请求数或数据量（如QPS、TPS），高吞吐量通常伴随高负载，需结合CPU、内存使用率综合判断是否存在瓶颈。
错误率
包括HTTP状态码（如5xx服务器错误、4xx客户端错误）及应用层异常率，错误率突增可能表明代码bug、数据库故障或外部依赖服务异常。

网络指标关注数据传输的效率和稳定性,避免因网络问题导致服务不可用。

对于依赖中间件（如Nginx、Tomcat）和数据库的系统，需额外关注其专属指标。

中间件指标
- Nginx：活跃连接数、请求处理数、后端服务器响应时间。
- Tomcat：JVM内存使用、线程池活跃线程数、请求处理时间。
数据库指标
- MySQL：慢查询数、连接数、锁等待时间、InnoDB缓冲池命中率。
- Redis：内存使用率、命令执行耗时、键过期数。

以下为关键监控指标的参考阈值范围：

监控数据需结合日志分析,通过ELK（Elasticsearch、Logstash、Kibana）等工具收集、存储和检索日志，设置多级告警规则（如邮件、短信、钉钉通知），确保异常时能快速响应。

Q1: 如何确定监控指标的合理阈值？
A1: 阈值需结合业务场景和历史数据综合设定，电商大促期间可临时提高CPU使用率阈值至90%，而日常环境建议控制在70%以内，可通过基线测试（如压力测试）获取系统极限值，再预留20%-30%余量作为安全阈值。

Q2: 监控数据量过大时，如何优化存储和查询效率？
A2: 可采用分层存储策略：热数据（如最近7天）高频存储并支持实时查询，冷数据（如30天以上）归档至低成本存储（如对象存储），对监控指标进行降采样（如1秒原始数据聚合为1分钟平均值），减少存储压力并提升查询速度。