1. 引入

根据参考1的描述,GPU在如下不稳定的情况下,是会发生问题的:

  • 温度过高
  • 温度过低
  • 超频
    不稳定会对GPU的结果造成影响,哪怕是完全相同的程序,在不稳定的GPU上得到的结果也会是不同的。所以我们对GPU测试,需要跑上一段时间(几十分钟)的程序。

目前很多GPU的测试工具,从下载、安装、配置都是比较复杂的,而且很多工具是用OpenGL做渲染测试,这样的测试工具也没法在命令行中运行。

那么问题来了,有没有一个轻量、小巧的工具,能在命令行中运行,来对GPU进行压测呢?gpu_burn就是答案。

2. gpu_burn的使用步骤

笔者在ubuntu和centos进行测试。

  1. clone程序
git clone https://github.com/wilicc/gpu-burn.git
  1. 编译
cd gpu-burn
make

编译后就能在这个目录中得到可执行文件gpu_burn

  1. 运行压测
./gpu_burn -d 100

其中,-d表示进行双精度浮点数计算,100表示进行压测持续100秒(这会导致GPU显存都被占用,100%的运行)。

  1. 测试结果

运行压测命令后,能得到如下的测试结果:
(1)服务器上,每一个GPU的具体型号与UUID。比如V100S-PCIE-32GB;
(2)运行压测的中间过程,比如运行了10%,20%,100%的结果
(3)细节参数输出,比如GPU的速度、报错、温度

proc'd: 594 (6692 Gflop/s) - 594 (6685 Gflop/s) - 594 (6600 Gflop/s) - 594 (6701 Gflop/s) - 594 (6693 Gflop/s) - 594 (6757 Gflop/s) - 594 (6700 Gflop/s) - 594 (6754 Gflop/s)   
errors: 0 - 0 - 0 - 0 - 0 - 0 - 0 - 0  
temps: 55 C - 53 C - 56 C - 57 C - 56 C - 55 C - 56 C - 51 C

从这里,我们可以看到

  • 每一个GPU的计算速度,比如GPU0为6692 Gflop/s,GPU1为6685 Gflop/s,这里显示了8个GPU的结果
  • errors:表示哪些GPU有问题
  • temps:表示各个GPU的温度(摄氏度)

(4)最终结论:通过如下的输出,告诉我们每一个GPU是否工作正常

Tested 8 GPUs:
        GPU 0: OK
        GPU 1: OK
        GPU 2: OK
        GPU 3: OK
        GPU 4: OK
        GPU 5: OK
        GPU 6: OK
        GPU 7: OK

3. 结论

使用gpu_burn,能在命令行中,对服务器上的每一个GPU进行压力测试,得出其速度、温度等关键指标。

参考

  1. http://wili.cc/blog/gpu-burn.html
  2. https://github.com/wilicc/gpu-burn
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐