1、项目环境:

  • 系统:Win10
  • 显卡:
  • Python3.9
  • CUDA:cuda12.0
  • cuDNN:cudnn 8.9.1
  • paddlepaddle:pip安装版本:gpu==2.6.0.post120

2、问题描述

2.1、进行paddlepaddle-gpu安装

安装指令:

python -m pip install paddlepaddle-gpu==2.6.0.post120 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html

安装后,进行安装成功检查,出现以下信息:

我刚开始以为这只是一个普通警告信息,所以忽略了。但是后面进行模型训练时,发现 loss 一直是 nan,模型无法进行正常训练。


3、原因分析:

刚开始,我以为是学习率、batch_size参数设置有问题,经过不同参数的调整,问题还是无法解决。

后来进行问题查找,cuda 120,paddle版本 2.6.0.post120对显卡算力的架构有一定要求。我的显卡(算力6.1)暂时不满足。(paddle版本2.5.1需要7.0以上算力的架构)

显卡算力查看方法:

https://blog.csdn.net/GodGump/article/details/132117731


解决方案:

  1. 更换显卡算力较高的设备
  2. 降低CUDA与paddle版本
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐