vllm使用api离线推理大模型

可以使用llm.generate()或者llm.chat()进行推理。使用后者的时候必须传入chat_template参数。》介绍使用vllm将大模型服务化。实际上vllm也支持离线推理。我写了一个离线推理的例子，并且可以让用户多次输入。我之前写过一个博客《

yuanlulu

1557人浏览 · 2025-03-16 16:37:31

yuanlulu · 2025-03-16 16:37:31 发布

说明

我之前写过一个博客《使用vllm部署大语言模型》介绍使用vllm将大模型服务化。实际上vllm也支持离线推理。

我写了一个离线推理的例子，并且可以让用户多次输入。

代码

from vllm import LLM, SamplingParams
import readline  # 导入readline模块

# 加载模型
llm = LLM(
    model="~/my_models/llama-7b",
    tensor_parallel_size=1,
    gpu_memory_utilization=0.9, trust_remote_code=True
)

# 定义生成参数
sampling_params = SamplingParams(
    temperature=0.8,
    top_p=0.9,
    max_tokens=256
)
chat_template="{%- if messages[0]['role'] == 'system' -%}    {%- set system_message = messages[0]['content'] -%}    {%- set messages = messages[1:] -%}{%- else -%}    {% set system_message = '' -%}{%- endif -%}{{ bos_token + system_message }}{%- for message in messages -%}    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}        {{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}    {%- endif -%}    {%- if message['role'] == 'user' -%}        {{ 'USER: ' + message['content'] + '\n' }}    {%- elif message['role'] == 'assistant' -%}        {{ 'ASSISTANT: ' + message['content'] + eos_token + '\n' }}    {%- endif -%}{%- endfor -%}{%- if add_generation_prompt -%}    {{ 'ASSISTANT:' }} {% endif %}"

# 在循环开始前初始化readline
readline.parse_and_bind("tab: complete")  # 启用基本编辑功能
readline.set_completer(None)  # 禁用自动补全

while True:
    try:
        prompt = input("请输入您的问题（输入Q退出）：")
        if prompt.upper() == "Q":
            print("程序退出")
            break
            
        # 执行推理generate
        prompts = [prompt]
        outputs = llm.generate(prompts, sampling_params)

        #或者用chat接口
        #prompts = [{"role": "user", "content":prompt}]
        #outputs = llm.chat(prompts, sampling_params, chat_template=chat_template)

        # 输出结果
        for output in outputs:
            print(output.outputs[0].text)
        print("\n" + "="*50 + "\n")  # 添加分隔线，使每次对话更清晰
    except KeyboardInterrupt:
        print("\n输入中断，请重新输入")
        continue

可以使用llm.generate()或者llm.chat()进行推理。使用后者的时候必须传入chat_template参数。

参考资料

使用vllm部署大语言模型

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git