Ollama本地搭建过程与使用
Ollama是一款简化大型语言模型部署的工具,支持GPT-OSS、Gemma3等多种模型。安装时建议下载脚本本地执行,使用nohup后台运行避免中断。常用命令包括pull下载模型、run运行模型等。文章演示了如何安装embedding模型bge-m3并进行测试,以及通过Modelfile自定义模型参数(如扩展上下文窗口)。Ollama适合开发测试,但生产环境建议使用vLLM等高并发方案。文中还提供
1. ollama是什么
官网https://ollama.com/,Ollama is the easiest way to get up and running with large language models such as gpt-oss, Gemma 3, DeepSeek-R1, Qwen3 and more.
Ollama号称最容易使用不为过,pull下来就可以run,不需要搞各种参数配置,如vLLM那般磨人。
2. ollama安装
官网的下载地址:https://ollama.com/download/linux,其实是一个安装脚本的地址:curl -fsSL https://ollama.com/install.sh | sh,执行是真的很慢,而且经常断掉,故先把脚本下载到本地:
curl -fsSL https://ollama.com/install.sh > ollama_install_20260302.sh
然后写一个run.sh来后台执行安装:
#!/bin/bash
rm -f nohup.out
nohup sudo bash ./ollama_install_20260302.sh &
让它在Linux服务器上慢慢去跑吧,上班不能摸鱼,正经工作是要搞设计、写代码的。
我用的Linux系统是:
~/app/llm$ uname -a
Linux 4.15.0-96-generic #97-Ubuntu SMP Wed Apr 1 03:25:46 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux
~/app/llm$ cat /proc/version
Linux version 4.15.0-96-generic (buildd@lgw01-amd64-004) (gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #97-Ubuntu SMP Wed Apr 1 03:25:46 UTC 2020
3. nvidia-smi命令使用
实时监控GPU使用情况,每2秒刷新一次:
nvidia-smi -l 2
4. ollama命令使用
看帮助:ollama -h
列出已经下载的模型:ollama list
列出正在运行的模型:ollama ps
下载一个新模型:ollama pull 模型名
运行一个模型:ollama run 模型名 [提示语] [flags]
修改ollama服务配置:sudo vi /etc/systemd/system/ollama.service
配置生效:sudo systemctl daemon-reload
服务重启:sudo systemctl restart ollama
5. 安装一个embedding模型
ollama pull bge-m3
ollama list
NAME ID SIZE MODIFIED
bge-m3:latest 790764642607 1.2 GB 5 minutes ago
qwen3.5:4b 2a654d98e6fb 3.4 GB 2 weeks ago
deepseek-r1:1.5b a42b25d8c10a 1.1 GB 13 months ago
编写一个简单的测试脚本embedding_test.sh:
#!/bin/bash
curl http://localhost:11434/api/embeddings -d '{
"model": "bge-m3:latest",
"prompt": "我想测试中文embedding"
}'
打开ollama服务的日志监控:
journalctl -u ollama -f
测试一下:
chmod +x ./embedding_test.sh
./embedding_test.sh
正确返回是一个向量值:
{"embedding":[-1.294836163520813,-0.5338415503501892,0.36949118971824646,.....,-0.16526339948177338,-1.3002305030822754,1.4007985591888428]}
6. 后台下载模型
如果在终端执行直接执行下载命令,下载太慢则常常中途断掉,写一个简单的脚本分钟级的事情:
#!/usr/bin/bash
source /home/honya/llm/ollama/bin/activate
rm -f /tmp/ollama_download.out
model="fredrezones55/qwen3.5-opus:27b"
nohup ollama pull $model \
>/tmp/ollama_download.out 2>&1 &
7. 自定义模型
有时我们需要在已有模型上修改默认参数,生成新模型固定起来,可以这么做:
1)创建 Modelfile:
FROM qwen3.5:35b
PARAMETER num_ctx 262144
我目的是改大上下文窗口。
2)执行创建新模型:
ollama create -f Modelfile qwen3.5:35b-262k
ollama list

8. 结束语
Ollama对开发人员测试大模型功能来说是很好用的,几个命令就可以把服务跑起来,然后通过API接口来访问即可,生产环境就不合适了,还得去折腾vLLM这类支持高并发的系统。
更多推荐
所有评论(0)