问题描述:

ubuntu16.04+AMD3500X+TiTan X,训练模型时,python进程cpu使用率很低,导致GPU没办法很快训练,出现了 GPU利用率从100%到0%之间反复横调,而且是间隔几秒钟的从0到百。

# 动态查看CUDA使用率
watch -n -0.1 nvidia-smi

# 动态查看CPU进程
top

原因分析:

注意:这里我仔细查看进程,发现python的训练进程竟然神奇的消失了,
在这里插入图片描述
  这里可以看到进程是1742,当用top命令查询时,查不到,之后用top -p 1742 才锁定进程,发现CPU利用率奇低。

在这里插入图片描述

初步探索解决方案:

初步怀疑:
1、要么CPU不行
2、要么python进程有问题(查找源码中。。)
(小声哔哔:该不会是GPU的问题吧?【皱眉】)

等待解决此问题再来完善。

排查问题

还真是GPU不行,之后用的TiTan X ,对比 1080Ti,慢了25% 大概,😅

解决办法

直接换牛皮的显卡。

提出:2021年3月24日。
解决:2021年9月24日。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐