【inference】开源下载和安装教程
【inference】开源下载和安装教程【免费下载链接】inference通过更改一行代码,您可以在应用程序中用另一个大型语言模型(LLM)替换OpenAI GPT。Xinference赋予您使用任何所需LLM的自由。借助Xinference,您能够在云端、本地、甚至笔记本电脑上运行任何开源语言模型、语音识别模型和多...
·
【inference】开源下载和安装教程
1、项目介绍
Xorbits Inference(Xinference)是一个专注于高效部署语言模型、语音识别及多模态模型的开源库。其核心优势包括:
- 单命令快速部署生产级模型
- 支持异构硬件(GPU/CPU/Metal)
- 提供OpenAI兼容API及WebUI交互界面
- 支持分布式推理和多节点集群部署
- 内置超过50种SOTA开源模型
2、项目下载位置
官方推荐通过PyPI安装:
pip install xinference
如需完整功能(包含GPU加速):
pip install "xinference[all]"
3、项目安装环境配置
基础要求
- Python ≥ 3.8
- 操作系统:Linux/macOS/Windows(WSL)
- 内存:建议≥16GB(运行7B模型)
GPU环境示例(以NVIDIA为例)

nvidia-smi # 确认驱动安装
nvcc --version # 检查CUDA版本
4、项目安装方式
方式一:本地安装(推荐)
# 创建虚拟环境
python -m venv xinference_env
source xinference_env/bin/activate
# 安装核心包
pip install xinference
方式二:Docker部署
docker run -d --name xinference \
-p 9997:9997 \
-v /path/to/models:/data \
--gpus all \
xprobe/xinference:latest
5、项目处理脚本
启动服务
xinference-local -H 0.0.0.0 --log-level debug
模型管理示例
from xinference.client import Client
client = Client("http://localhost:9997")
model_uid = client.launch_model(
model_name="llama-2-chat",
model_size_in_billions=7,
quantization="q4_0"
)
response = client.generate(model_uid, prompt="你好!")
print(response)
常用命令
| 功能 | 命令示例 |
|---|---|
| 查看可用模型 | xinference list --all |
| 停止模型 | xinference terminate --model-uid <UID> |
| 启动WebUI | xinference-local --web-ui |
更多推荐
所有评论(0)