前言

本文为记录之前几年搭建深度学习环境的记录文档。

当前服务器环境信息(2022.11.09),后面所有版本肯定会跟新,需重新评估版本匹配,尤其是显卡驱动和cuda、cuda和cuDNN、cuda和Pytorch的版本匹配,如果下述环境安装,为保证安装不出问题,各个软件版本最好安装匹配的版本

ubuntu:20.04LTS
显卡型号:Quadro P2000
nvidia显卡驱动版本:515.76
cuda版本:11.7
cuDNN:v8.5.0 (August 8th, 2022), for CUDA 11.x
conda:Anaconda3-2022.10-Linux-x86_64.sh,cuda: 11.7.0

Python版本:3.9
Pytorch版本: 1.13.0

Yolo v5版本:6.2


一、安装ubuntu系统

在官网下载系统,用u盘制作启动盘安装即可,和windows系统安装一样

二、安装Nvidia显卡驱动

1、可能需要进入主板BIOS,关闭安全启动

2、更新软件源列表

sudo apt-get update

3、安装必要的依赖

sudo apt-get install g++
sudo apt-get install gcc
sudo apt-get install make

4、根据显卡型号下载对应的驱动,官方驱动下载链接:

https://www.nvidia.cn/Download/index.aspx?lang=cn

通用查看显卡型号命令:lspci | grep -i vga
查看nvidia显卡型号命令:lspci | grep -i nvidia
5、卸载原有驱动(若有)
sudo apt-get remove --purge nvidia*
6、禁用nouveau驱动,在/etc/modprobe.d/blacklist.conf末尾添加

blacklist nouveau
options nouveau modeset=0

可以使用vim编辑器修改 vim /etc/modprobe.d/blacklist.conf,修改完成后wq保存退出

7、在终端中输入更新初始 ram 文件系统,随后reboot重启计算机(必须)
sudo update-initramfs –u

8、重启后在终端输入如下,没有任何输出表示屏蔽成功
lsmod | grep nouveau

9、停止当前显示服务器Ctrl + Alt + F1~F6,进入文本界面,然后根据用户名和密码登录。(退出文本界面到图形界面,输入sudo telinit 5或者Ctrl + Alt + F1/F7/F8)
10、禁用X-window服务,根据显示管理器为gdm3或lightdm选择对应命令(二选一,登录Ubuntu时输密码的登录窗口位于左边是lightdm,位于正中是gdm3,ubuntu20.04、22.04自带的gdm3显示管理器)
sudo service gdm3 stop

sudo service lightdm stop

11、进入存放驱动文件的目录,输入指令进行安装(xx替换实际驱动的版本信息)
sudo chmod 777 NVIDIA-Linux-xxx.run
sudo ./NVIDIA-Linux-xxx.run –no-opengl-files

12、显卡驱动安装过程中部分选项:

    1)The distribution-provided pre-install script failed! Are you sure you want to continue?

    选择continue installation

    2)Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later?  

    选择 No 继续。

    3)选择:install without signing

    4)Nvidia's 32-bit compatibility libraries? 选择 No 继续。

    5)Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up.  

    选择 Yes 继续

13、安装结束后输入sudo service lightdm/gdm3 start 重启x-window服务,即可自动进入登陆界面,不行的话,输入sudo reboot重启,再看看。

14、驱动安装好后,终端输入nvidia-smi 检查是否装好,出现下方显卡信息,表示安装成功。
在这里插入图片描述

三、安装cuda

1、下载CUDA Toolkit,官方下载链接:https://developer.nvidia.com/cuda-downloads。根据电脑平台进行选择
2、复制上图中官方的安装命令安装
3、安装过程中,首先输入accept,取消勾选Driver(已经安装了驱动),选择Install,回车
在这里插入图片描述

安装完成后,如下所示
在这里插入图片描述

4、输入命令gedit ~/.bashrc,在打开文档末尾添加如下环境变量
export PATH=/usr/local/cuda-11.7/bin: P A T H e x p o r t L D L I B R A R Y P A T H = / u s r / l o c a l / c u d a − 11.7 / l i b 64 : PATH export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64: PATHexportLDLIBRARYPATH=/usr/local/cuda11.7/lib64:LD_LIBRARY_PATH

更新环境变量配置,输入命令:
source ~/.bashrc
5、测试cuda安装
nvcc –V
6、输出如下,版本对应上就成功了:
在这里插入图片描述

四、安装cudnn

1、下载cudnn库,官方下载链接:https://developer.nvidia.com/rdp/cudnn-archive,该网站需要注册 nvidia账号才能下载
2、之后选择版本的,需匹配cuda版本,目前8.5.0 for cuda11.x是可行的,然后选择对应的操作系统安装包
在这里插入图片描述

3、进入下载路径,执行下述命令安装。
sudo dpkg -i cudnn-local-repo-ubuntu2004-8.5.0.96_1.0-1_amd64.deb
4、之后下一步,根据上面运行后的提示,把最后一句话复制下,输入终端。类似于下面这一句话
sudo cp /var/cudnn-local-repo-/cudnn-local--keyring.gpg /usr/share/keyrings/
5、继续安装,把下面命令的xxx换成安装包的版本,把后面的X.Y换成自己的cuda版本,例如,我这里是cuda11.7,所以我就改成了11.7
sudo apt-get update
sudo apt-get install libcudnn8=8.x.x.x-1+cudaX.Y
sudo apt-get install libcudnn8-dev=8.x.x.x-1+cudaX.Y
sudo apt-get install libcudnn8-samples=8.x.x.x-1+cudaX.Y
6、测试安装是否成功,输入下述命令:
cp -r /usr/src/cudnn_samples_v8/ $HOME
cd $HOME/cudnn_samples_v8/mnistCUDNN
make clean && make
./mnistCUDNN
注意:这里可能会有报错,g++报错,或者头文件报错
g++报错就安装一下:
sudo apt-get install g++
头文件报错就安装头文件:
在这里插入图片描述

sudo apt-get install libfreeimage3 libfreeimage-dev
之后,再次make,然后运行编译出来的可执行文件,运行结果是test passed表明安装成功
在这里插入图片描述

结束

至此,深度学习环境搭建完毕,可在该环境在根据需要搭建自己的深度学习框架进行下一步,推荐可以安装anaconda,anaconda可以建立虚拟的环境。因此我们可以新建多个虚拟环境,每个环境中安装不同的包和框架,从而达到不同项目使用不同环境而不互相冲突的效果。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐