【inference】开源下载和安装教程

【免费下载链接】inference 通过更改一行代码,您可以在应用程序中用另一个大型语言模型(LLM)替换OpenAI GPT。Xinference赋予您使用任何所需LLM的自由。借助Xinference,您能够在云端、本地、甚至笔记本电脑上运行任何开源语言模型、语音识别模型和多模态模型的推理。 【免费下载链接】inference 项目地址: https://gitcode.com/xorbits/inference

1、项目介绍

Xorbits Inference(Xinference)是一个专注于高效部署语言模型、语音识别及多模态模型的开源库。其核心优势包括:

  • 单命令快速部署生产级模型
  • 支持异构硬件(GPU/CPU/Metal)
  • 提供OpenAI兼容API及WebUI交互界面
  • 支持分布式推理和多节点集群部署
  • 内置超过50种SOTA开源模型

2、项目下载位置

官方推荐通过PyPI安装:

pip install xinference

如需完整功能(包含GPU加速):

pip install "xinference[all]"

3、项目安装环境配置

基础要求

  • Python ≥ 3.8
  • 操作系统:Linux/macOS/Windows(WSL)
  • 内存:建议≥16GB(运行7B模型)

GPU环境示例(以NVIDIA为例)

CUDA验证示例

nvidia-smi  # 确认驱动安装
nvcc --version  # 检查CUDA版本

4、项目安装方式

方式一:本地安装(推荐)

# 创建虚拟环境
python -m venv xinference_env
source xinference_env/bin/activate

# 安装核心包
pip install xinference

方式二:Docker部署

docker run -d --name xinference \
  -p 9997:9997 \
  -v /path/to/models:/data \
  --gpus all \
  xprobe/xinference:latest

5、项目处理脚本

启动服务

xinference-local -H 0.0.0.0 --log-level debug

模型管理示例

from xinference.client import Client

client = Client("http://localhost:9997")
model_uid = client.launch_model(
    model_name="llama-2-chat",
    model_size_in_billions=7,
    quantization="q4_0"
)

response = client.generate(model_uid, prompt="你好!")
print(response)

常用命令

功能 命令示例
查看可用模型 xinference list --all
停止模型 xinference terminate --model-uid <UID>
启动WebUI xinference-local --web-ui

【免费下载链接】inference 通过更改一行代码,您可以在应用程序中用另一个大型语言模型(LLM)替换OpenAI GPT。Xinference赋予您使用任何所需LLM的自由。借助Xinference,您能够在云端、本地、甚至笔记本电脑上运行任何开源语言模型、语音识别模型和多模态模型的推理。 【免费下载链接】inference 项目地址: https://gitcode.com/xorbits/inference

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐