使用gpu_burn对GPU进行压测
使用gpu_burn,能在命令行中,对服务器上的每一个GPU进行压力测试,得出其速度、温度等关键指标。
·
1. 引入
根据参考1的描述,GPU在如下不稳定的情况下,是会发生问题的:
- 温度过高
- 温度过低
- 超频
不稳定会对GPU的结果造成影响,哪怕是完全相同的程序,在不稳定的GPU上得到的结果也会是不同的。所以我们对GPU测试,需要跑上一段时间(几十分钟)的程序。
目前很多GPU的测试工具,从下载、安装、配置都是比较复杂的,而且很多工具是用OpenGL做渲染测试,这样的测试工具也没法在命令行中运行。
那么问题来了,有没有一个轻量、小巧的工具,能在命令行中运行,来对GPU进行压测呢?gpu_burn就是答案。
2. gpu_burn的使用步骤
笔者在ubuntu和centos进行测试。
- clone程序
git clone https://github.com/wilicc/gpu-burn.git
- 编译
cd gpu-burn
make
编译后就能在这个目录中得到可执行文件gpu_burn
。
- 运行压测
./gpu_burn -d 100
其中,-d表示进行双精度浮点数计算,100表示进行压测持续100秒(这会导致GPU显存都被占用,100%的运行)。
- 测试结果
运行压测命令后,能得到如下的测试结果:
(1)服务器上,每一个GPU的具体型号与UUID。比如V100S-PCIE-32GB;
(2)运行压测的中间过程,比如运行了10%,20%,100%的结果
(3)细节参数输出,比如GPU的速度、报错、温度
proc'd: 594 (6692 Gflop/s) - 594 (6685 Gflop/s) - 594 (6600 Gflop/s) - 594 (6701 Gflop/s) - 594 (6693 Gflop/s) - 594 (6757 Gflop/s) - 594 (6700 Gflop/s) - 594 (6754 Gflop/s)
errors: 0 - 0 - 0 - 0 - 0 - 0 - 0 - 0
temps: 55 C - 53 C - 56 C - 57 C - 56 C - 55 C - 56 C - 51 C
从这里,我们可以看到
- 每一个GPU的计算速度,比如GPU0为6692 Gflop/s,GPU1为6685 Gflop/s,这里显示了8个GPU的结果
- errors:表示哪些GPU有问题
- temps:表示各个GPU的温度(摄氏度)
(4)最终结论:通过如下的输出,告诉我们每一个GPU是否工作正常
Tested 8 GPUs:
GPU 0: OK
GPU 1: OK
GPU 2: OK
GPU 3: OK
GPU 4: OK
GPU 5: OK
GPU 6: OK
GPU 7: OK
3. 结论
使用gpu_burn,能在命令行中,对服务器上的每一个GPU进行压力测试,得出其速度、温度等关键指标。
参考
- http://wili.cc/blog/gpu-burn.html
- https://github.com/wilicc/gpu-burn
更多推荐
已为社区贡献1条内容
所有评论(0)