服务器跑深度学习常用方法总结

只需改后面三行代码就行，前面可以直接套用，具体每个代码什么意思就不赘述了。优点：会把每次输出生成一个.out文件方便后期结果查阅保存。缺点：输出没有保存到文件里，如果输出很多不易查看。缺点：不够简介，需要写.slurm文件。以上就是常用的两种操作。2.采用终端指令运行。

小赵同学871

732人浏览 · 2023-08-22 10:35:57

小赵同学871 · 2023-08-22 10:35:57 发布

本文所操作的是基于学校的浪潮高性能计算集群展开深度学习相关工作，调度系统采用的是slurm，若想在服务器上跑深度学习常用方法主要有以下两种：
1.采用调度系统写slurm文件跑：
优点：会把每次输出生成一个.out文件方便后期结果查阅保存
缺点：不够简介，需要写.slurm文件
操作：

将自己的代码存放于服务器文件夹中
写调度文件（关键）可以套用模版，改部分指令即可，模板如下

#!/bin/bash
#SBATCH --job-name=esm-gpu 
#SBATCH --partition=gpu
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=8
#SBATCH --gres=gpu:2
#SBATCH --error=%j.err    
#SBATCH --output=%j.out       

#setting environment for pytorch关键部分要不自己需要的环境变量加载过来
export PATH=/home/inspur/zl409100220027/anaconda3/envs/pytorch/bin:$PATH
#切换到代码文件运行目录
cd /home/inspur/zl409100220027/ESM
#运行指令
python training.py

只需改后面三行代码就行，前面可以直接套用，具体每个代码什么意思就不赘述了

sbatch xxx.slurm #xxx.slurm为上一步你自己写的文件名

2.采用终端指令运行
优点：方便快捷
缺点：输出没有保存到文件里，如果输出很多不易查看
操作：

这个方法需要首先申请gpu节点salloc --partition=gpu --gres=gpu:1申请到以后ssh gpu0202为自己申请到的具体看自己的改，进行激活进入这个gpu节点
进入自己的anaconda环境 conda activate pytorh
python training.py直接运行即可
注意这种方法要先有项目已经在该节点上跑，也就是说已经申请了这个gpu并加上GPU卡数量

以上就是常用的两种操作。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手