1、CPU监控

CPU负载:通过node_load1
、node_load5
和node_load15
三个指标来表示CPU在一分钟、五分钟和十五分钟内的平均负载,当CPU负载数除以CPU核数的结果超过0.7时,应提高警惕;如果超过1,则需要运维介入处理。
CPU使用率:利用node_cpu_seconds_total
指标,结合PromQL查询,可以计算出CPU的使用率,特别是通过计算非空闲时间的比例,进而得到CPU的实际使用情况。
2、内存监控
物理内存使用率:通过node_memory_MemTotal_bytes
、node_memory_MemFree_bytes
、node_memory_Buffers_bytes
和node_memory_Cached_bytes
等指标,可以计算出物理内存的使用率,计算公式为:(总内存 (空闲内存 + 缓冲缓存 + 页面缓存))/ 总内存 * 100。
Swap内存使用率:Swap内存使用率可以通过node_memory_SwapTotal_bytes
和node_memory_SwapFree_bytes
两个指标来计算,当物理内存不足时,系统会将不常访问的数据置换到Swap空间,以缓解内存压力。

3、磁盘监控
分区使用率:通过node_filesystem_size_bytes
和node_filesystem_free_bytes
指标,可以计算出不同分区的使用率,这对于确保存储空间足够,避免因磁盘满载而影响服务至关重要。
磁盘吞吐量:node_disk_read_bytes_total
和node_disk_written_bytes_total
指标反映了磁盘的读写总字节数,通过这些数据,可以评估磁盘的每秒读写速率,从而了解磁盘的工作效率。
磁盘IOPS:IOPS(每秒输入/输出操作次数)是衡量磁盘性能的另一关键指标,通过node_disk_reads_completed_total
和node_disk_writes_completed_total
指标,可以计算得出磁盘的IOPS值。
4、网络监控

网卡流量:通过node_network_receive_bytes_total
和node_network_transmit_bytes_total
指标,可以监测网卡的上传和下载流量,这些数据有助于分析网络使用模式,并及时发现异常流量。
5、可用性监控
实例可用性:除了性能监控外,还需要关注主机的可用性,例如是否关机、监控软件是否正常运行等。up{job="nodeexporter"}
指标可用于实现这类监控需求。
提供了关于国外某款监控软件的主机监控指标的详细信息,包括CPU、内存、磁盘、网络以及可用性监控等方面的关键指标,通过这些指标,可以全面了解主机的运行状态,及时发现并解决问题,确保系统的稳定运行。
【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!
发表回复