zabbix监控gpu
zabbix监控gpu服务器
前言:不管是监控什么首先要有监控键值,怎么获取很重要
附加:获取gpu温度
首先在服务器里能显示这个数值:
这只是其中一个,如果有多个gpu,每个都要监控
到/usr/local/zabbix_agent/etc目录下,配置这个获取值的脚本(可以自己建个目录放这些监控项脚本)
vi gpu_temperature_v0.sh 或 gpu_temperature_v1.sh .....
#!/bin/bash
nvidia-smi|awk 'NR==10'|awk '{print$3}' |awk -FC '{print$1}'
然后在zabbix_agentd.conf里配置
UserParameter=gpu_temperature_v0.sh,/usr/local/zabbix_agent/etc/gpu_temperature_v0.sh
然后重启客户端
接下来到web页面针对主机添加监控项、触发器和图形
监控项新建:
触发器新建:
新建图形:
监控gpu内存使用:
nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==1 {print}'
获取到13374 也可以获取总内存15360
在/usr/local/zabbix_agent/etc里新建目录video_memory
配置脚本gpu_video_memory_total_v0.sh gpu_video_memory_used_v0.sh
然后在zabbix_agentd.conf里新增:
UserParameter=gpu_video_memory_used_v0,/usr/local/zabbix_agent/etc/video_memory/gpu_video_memory_used_v0.sh
UserParameter=gpu_video_memory_total_v0,/usr/local/zabbix_agent/etc/video_memory/gpu_video_memory_total_v0.sh
然后一样针对主机新增配置监控项、触发器及图形:
新增监控项和触发器一样,图形是可以汇总
更多推荐
所有评论(0)