LLM--大模型部署

本文介绍了Ollama本地大模型部署工具的使用方法。主要内容包括：下载安装Ollama（版本0.16.3）、部署轻量级qwen3:0.6b模型、运行与退出操作。重点讲解了Ollama提供的API接口，包括聊天对话、文本向量化、模型管理等8个核心接口的调用方法和Python示例代码，特别详细说明了/chat和/embeddings接口的使用场景和请求格式。文章还提及了因硬件限制选择小模型的考虑，为本

W@Y…

603人浏览 · 2026-04-07 13:51:48

W@Y… · 2026-04-07 13:51:48 发布

文章目录

下载Ollama
本地部署模型
Embedding嵌入模型
Ollama API

下载Ollama

简介：本地大模型部署工具。
官网直接下载即可，很简单。

检查(cmd)

本地部署模型

本人电脑C盘不足，且电脑显卡不行，故只部署qwen3::0.6b模型

打开cmd，输入

运行

退出

Embedding嵌入模型

<font style="color:rgb(0, 0, 0);">ollama pull nomic-embed-text</font>

作用：文本转Embedding嵌入

Ollama API

启动：ollama serve

接口解释

接口	方法	用途
`/api/chat`	POST	聊天对话
`/api/embeddings`	POST	文本向量化
`/api/generate`	POST	单次生成
`/api/tags`	GET	查看模型
`/api/show`	POST	模型详情
`/api/pull`	POST	下载模型
`/api/delete`	DELETE	删除模型
`/api/version`	GET	查看版本

`/api/chat` - 聊天对话（最常用）

用途：多轮对话，支持 system/user/assistant 角色

请求格式：

{
  "model": "qwen3:0.6b",
  "messages": [
    {"role": "system", "content": "你是一个助手"},
    {"role": "user", "content": "你好"}
  ],
  "stream": false
}

Python 调用：

import requests

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "qwen3:0.6b",
    "messages": [
        {"role": "system", "content": "你是一个助手"},
        {"role": "user", "content": "你好"}
    ],
    "stream": False
})

print(response.json()["message"]["content"])

curl 测试：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:0.6b",
  "messages": [{"role": "user", "content": "你好"}],
  "stream": false
}'

`/api/embeddings` - 文本向量化

用途：将文本转换为向量**（用于 RAG 语义搜索）**

请求格式：

{
  "model": "nomic-embed-text",
  "prompt": "今天天气真好"
}

Python 调用：

import requests

response = requests.post("http://localhost:11434/api/embeddings", json={
    "model": "nomic-embed-text",
    "prompt": "今天天气真好"
})

vector = response.json()["embedding"]
print(f"向量维度: {len(vector)}")  # 768 维

`/api/generate` - 单次文本生成（旧版）

用途：简单文本生成（不支持多轮对话）

请求格式：

{
  "model": "qwen3:0.6b",
  "prompt": "你好，请介绍一下你自己",
  "stream": false
}

Python 调用：

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "qwen3:0.6b",
    "prompt": "你好",
    "stream": False
})

print(response.json()["response"])

`/api/tags` - 查看已下载模型

用途：列出本地所有可用模型

Python 调用：

import requests

response = requests.get("http://localhost:11434/api/tags")
models = response.json()["models"]

print("已安装的模型:")
for model in models:
    print(f"  - {model['name']} ({model['size'] / 1e9:.2f} GB)")

curl 测试：

curl http://localhost:11434/api/tags

`/api/show` - 查看模型详情

用途：获取模型的详细信息（参数、许可证等）

Python 调用：

import requests

response = requests.post("http://localhost:11434/api/show", json={
    "model": "qwen3:0.6b"
})

info = response.json()
print(f"模型: {info['model']}")
print(f"参数: {info.get('details', {})}")

`/api/pull` - 下载模型

用途：编程方式下载模型

Python 调用：

import requests

response = requests.post("http://localhost:11434/api/pull", json={
    "model": "qwen3:0.6b",
    "stream": False
})

print(response.json())

`/api/delete` - 删除模型

用途：删除本地模型释放空间

Python 调用：

import requests

response = requests.delete("http://localhost:11434/api/delete", json={
    "model": "qwen3:0.6b"
})

print(response.json())

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git