前言:不管是监控什么首先要有监控键值,怎么获取很重要

附加:获取gpu温度

首先在服务器里能显示这个数值:

这只是其中一个,如果有多个gpu,每个都要监控

到/usr/local/zabbix_agent/etc目录下,配置这个获取值的脚本(可以自己建个目录放这些监控项脚本)

vi gpu_temperature_v0.sh 或 gpu_temperature_v1.sh  .....

#!/bin/bash
nvidia-smi|awk 'NR==10'|awk '{print$3}' |awk -FC '{print$1}'

然后在zabbix_agentd.conf里配置

UserParameter=gpu_temperature_v0.sh,/usr/local/zabbix_agent/etc/gpu_temperature_v0.sh

然后重启客户端

接下来到web页面针对主机添加监控项、触发器和图形

监控项新建:

 触发器新建:

 新建图形:

 

监控gpu内存使用:

nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==1 {print}'

获取到13374 也可以获取总内存15360

在/usr/local/zabbix_agent/etc里新建目录video_memory

配置脚本gpu_video_memory_total_v0.sh  gpu_video_memory_used_v0.sh

然后在zabbix_agentd.conf里新增:

UserParameter=gpu_video_memory_used_v0,/usr/local/zabbix_agent/etc/video_memory/gpu_video_memory_used_v0.sh

UserParameter=gpu_video_memory_total_v0,/usr/local/zabbix_agent/etc/video_memory/gpu_video_memory_total_v0.sh

然后一样针对主机新增配置监控项、触发器及图形:

新增监控项和触发器一样,图形是可以汇总

 

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐