问题抛出-已解决:模型训练速度慢,CPU使用率低。
问题描述:ubuntu16.04+AMD3500X+TiTan X,训练模型时,python进程cpu使用率很低,导致GPU没办法很快训练,出现了 GPU利用率从100%到0%之间反复横调,而且是间隔几秒钟的从0到百。# 动态查看CUDA使用率watch -n -0.1 nvidia-smi# 动态查看CPU进程top原因分析:注意:这里我仔细查看进程,发现python的训练进程竟然神奇的消失了,
·
问题描述:
ubuntu16.04+AMD3500X+TiTan X,训练模型时,python进程cpu使用率很低,导致GPU没办法很快训练,出现了 GPU利用率从100%到0%之间反复横调,而且是间隔几秒钟的从0到百。
# 动态查看CUDA使用率
watch -n -0.1 nvidia-smi
# 动态查看CPU进程
top
原因分析:
注意:这里我仔细查看进程,发现python的训练进程竟然神奇的消失了,
这里可以看到进程是1742,当用top命令查询时,查不到,之后用top -p 1742 才锁定进程,发现CPU利用率奇低。
初步探索解决方案:
初步怀疑:
1、要么CPU不行
2、要么python进程有问题(查找源码中。。)
(小声哔哔:该不会是GPU的问题吧?【皱眉】)
等待解决此问题再来完善。
排查问题
还真是GPU不行,之后用的TiTan X ,对比 1080Ti,慢了25% 大概,😅
解决办法
直接换牛皮的显卡。
提出:2021年3月24日。
解决:2021年9月24日。
更多推荐
所有评论(0)