本想买个5090的本子做开发+轻训练,但是性价比不高,退而求其次,就买了 RTX 5080 Laptop (16G)的笔记本。内存64G,U9 CPU。因为主要是做开发,所以主要针对开发方面的需求做了一些比较,作为大家的前车之鉴。

加载大模型

vllm加载 7B没问题。

lmdeploy 推的时候遇到了坑,TurboMind 的 CUDA内核未针对你的显卡架构编译;你的 GPU 为 RTX 5080 Laptop ,算力 sm_120 。还好找到了解决方案:官方说明针对 RTX 50 系列需使用 CUDA 12.8 编译的预构建包;否则运行 TurboMind 可能出现错误。

source /home/miniconda3/bin/activate && conda activate lmdeploy && pip uninstall -y lmdeploy && pip install https://github.com/InternLM/lmdeploy/releases/download/v0.10.2/lmdeploy-0.10.2+cu128-cp310-cp310-manylinux2014_x86_64.whl```

lmdeploy确实比vllm的显存优化做的好,从nvitop的 MEM上就能看到差异,应该能比vllm少三分之一。但是由于16G显存确实太小,留给上下文的token只能优化到5000左右,应该还可以再优化,我没再研究,参数配置如下:

lmdeploy serve api_server --dtype bfloat16 --cache-max-entry-count 0.9   --quant-policy 8 /home/peter/LLM/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 

量化的大模型(GGUF)需要llama,我不常用就没测,估计可以到32B。

微调大模型

微调参数

在这里插入图片描述

速度

我的5080 Laptop 和云端租赁的 5090 做了对比,同样参数下(批次5,最大长度800),且前提是训练量没有突破 5080 Laptop的上线(GPU的 MEM和 UTL满格):

相差速度3-4倍

在这里插入图片描述在这里插入图片描述
但这是不突破 5080 laptop上限的前提下,否则应该是6-8倍,可参考nvitop推算:
在这里插入图片描述

在这里插入图片描述

效果

虽然训练参数相同,但由于GPU硬件不同,训练效果也不同,5090可以增加更大的batch,获得更好的效果:
在这里插入图片描述
在这里插入图片描述

最后

5080 laptop可以正常使用 7B 左右的模型,其实还是不错的,可以做一些小型的LLM应用项目开发和实验性模型训练,正式训练还是要上5090 及以上,效果和速度会更好,性价比也高。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐