
服务器跑深度学习常用方法总结
只需改后面三行代码就行,前面可以直接套用,具体每个代码什么意思就不赘述了。优点:会把每次输出生成一个.out文件方便后期结果查阅保存。缺点:输出没有保存到文件里,如果输出很多不易查看。缺点:不够简介,需要写.slurm文件。以上就是常用的两种操作。2.采用终端指令运行。
·
本文所操作的是基于学校的浪潮高性能计算集群展开深度学习相关工作,调度系统采用的是slurm,若想在服务器上跑深度学习常用方法主要有以下两种:
1.采用调度系统写slurm文件跑:
优点:会把每次输出生成一个.out文件方便后期结果查阅保存
缺点:不够简介,需要写.slurm文件
操作:
- 将自己的代码存放于服务器文件夹中
- 写调度文件(关键)可以套用模版,改部分指令即可,模板如下
#!/bin/bash
#SBATCH --job-name=esm-gpu
#SBATCH --partition=gpu
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=8
#SBATCH --gres=gpu:2
#SBATCH --error=%j.err
#SBATCH --output=%j.out
#setting environment for pytorch关键部分要不自己需要的环境变量加载过来
export PATH=/home/inspur/zl409100220027/anaconda3/envs/pytorch/bin:$PATH
#切换到代码文件运行目录
cd /home/inspur/zl409100220027/ESM
#运行指令
python training.py
只需改后面三行代码就行,前面可以直接套用,具体每个代码什么意思就不赘述了
sbatch xxx.slurm
#xxx.slurm为上一步你自己写的文件名
2.采用终端指令运行
优点:方便快捷
缺点:输出没有保存到文件里,如果输出很多不易查看
操作:
- 这个方法需要首先申请gpu节点
salloc --partition=gpu --gres=gpu:1
申请到以后ssh gpu02
02为自己申请到的具体看自己的改,进行激活进入这个gpu节点 - 进入自己的anaconda环境
conda activate pytorh
python training.py
直接运行即可- 注意这种方法要先有项目已经在该节点上跑,也就是说已经申请了这个gpu并加上GPU卡数量
以上就是常用的两种操作。
更多推荐
所有评论(0)