1. ollama是什么

        官网https://ollama.com/Ollama is the easiest way to get up and running with large language models such as gpt-oss, Gemma 3, DeepSeek-R1, Qwen3 and more.

        Ollama号称最容易使用不为过,pull下来就可以run,不需要搞各种参数配置,如vLLM那般磨人。

2. ollama安装

        官网的下载地址:https://ollama.com/download/linux,其实是一个安装脚本的地址:curl -fsSL https://ollama.com/install.sh | sh,执行是真的很慢,而且经常断掉,故先把脚本下载到本地:

        curl -fsSL https://ollama.com/install.sh  > ollama_install_20260302.sh

        然后写一个run.sh来后台执行安装:

#!/bin/bash

rm -f nohup.out

nohup sudo bash ./ollama_install_20260302.sh &

        让它在Linux服务器上慢慢去跑吧,上班不能摸鱼,正经工作是要搞设计、写代码的。

        我用的Linux系统是:

~/app/llm$ uname -a
Linux 4.15.0-96-generic #97-Ubuntu SMP Wed Apr 1 03:25:46 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux

~/app/llm$ cat /proc/version
Linux version 4.15.0-96-generic (buildd@lgw01-amd64-004) (gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #97-Ubuntu SMP Wed Apr 1 03:25:46 UTC 2020

3. nvidia-smi命令使用

        实时监控GPU使用情况,每2秒刷新一次:

        nvidia-smi -l 2

4. ollama命令使用

        看帮助:ollama -h

        列出已经下载的模型:ollama list

        列出正在运行的模型:ollama ps

        下载一个新模型:ollama pull 模型名

        运行一个模型:ollama run 模型名 [提示语] [flags]

        修改ollama服务配置:sudo vi /etc/systemd/system/ollama.service

        配置生效:sudo systemctl daemon-reload
        服务重启:sudo systemctl restart ollama

5. 安装一个embedding模型

ollama pull bge-m3

ollama list

NAME                ID              SIZE      MODIFIED      
bge-m3:latest       790764642607    1.2 GB    5 minutes ago    
qwen3.5:4b          2a654d98e6fb    3.4 GB    2 weeks ago      
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    13 months ago

        编写一个简单的测试脚本embedding_test.sh:

#!/bin/bash


curl http://localhost:11434/api/embeddings -d '{
  "model": "bge-m3:latest",
  "prompt": "我想测试中文embedding"
}'

        打开ollama服务的日志监控:

journalctl -u ollama -f

        测试一下:

chmod +x ./embedding_test.sh

./embedding_test.sh

        正确返回是一个向量值:

{"embedding":[-1.294836163520813,-0.5338415503501892,0.36949118971824646,.....,-0.16526339948177338,-1.3002305030822754,1.4007985591888428]}

6. 后台下载模型

        如果在终端执行直接执行下载命令,下载太慢则常常中途断掉,写一个简单的脚本分钟级的事情:

#!/usr/bin/bash

source /home/honya/llm/ollama/bin/activate

rm -f /tmp/ollama_download.out

model="fredrezones55/qwen3.5-opus:27b"
nohup ollama pull $model \
	 >/tmp/ollama_download.out 2>&1 &

7. 自定义模型

        有时我们需要在已有模型上修改默认参数,生成新模型固定起来,可以这么做:

1)创建 Modelfile:

FROM qwen3.5:35b

PARAMETER num_ctx 262144

        我目的是改大上下文窗口。

2)执行创建新模型:

ollama create -f Modelfile qwen3.5:35b-262k

ollama list

8. 结束语

        Ollama对开发人员测试大模型功能来说是很好用的,几个命令就可以把服务跑起来,然后通过API接口来访问即可,生产环境就不合适了,还得去折腾vLLM这类支持高并发的系统。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐