Lida：LLM驱动的数据可视化革命，5分钟从零生成专业图表

gitblog_00044

479人浏览 · 2026-01-31 01:40:48

gitblog_00044 · 2026-01-31 01:40:48 发布

Qwen3.5-35B-A3B多模态能力实测：图文融合推理API调用与示例解析

【免费下载链接】Qwen3.5-35B-A3B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-35B-A3B

Qwen3.5-35B-A3B是一款基于MoE架构的旗舰级多模态模型，具备原生图文融合推理能力，能高效处理图像与文本信息。本文将为您详细介绍如何通过API调用体验其强大的多模态功能，包含环境部署、请求发送及结果解析等实用内容。

一、模型核心能力解析

Qwen3.5-35B-A3B作为新一代多模态模型，其核心优势在于：

原生多模态架构：集成Vision Encoder与图文融合模块，可直接处理图像输入
混合注意力机制：Full Attention与Linear-Attention交替工作，平衡性能与效率
MTP多Token预测分支：提升长文本生成质量与连贯性
高效MoE专家机制：通过专家路由实现计算资源的智能分配

二、环境准备指南

2.1 模型权重获取

首先需要下载BF16版本的模型权重：下载模型权重，建议保存至共享目录如/root/.cache/。

2.2 快速部署方式

推荐使用官方Docker镜像进行部署，步骤如下：

# 加载镜像
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar

# 运行容器（根据实际设备调整--device参数）
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci_manager \
-v /root/.cache:/root/.cache \
-it $IMAGE bash

三、单节点服务启动

在容器内执行以下命令启动推理服务：

export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_OP_EXPANSION_MODE="AIV"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-35B-A3B/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --tensor-parallel-size 4 \
    --max-model-len 5000 \
    --async-scheduling \
    --allowed-local-media-path /

服务启动成功后，即可通过API接口进行多模态推理。

四、图文融合API调用实例

4.1 基础请求格式

使用curl发送多模态请求，包含图像URL与文本提问：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
    -d '{
        "model": "qwen3.5",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": [
                {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
                {"type": "text", "text": "What is the text in the illustrate?"}
            ]}
        ]
    }'

4.2 响应结果解析

成功调用后返回JSON格式结果，关键信息包括：

{
  "id": "chatcmpl-9dab99d55addd8c0",
  "object": "chat.completion",
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "TONGYI Qwen"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 112,
    "total_tokens": 119,
    "completion_tokens": 7
  }
}

其中content字段即为模型对图像内容的识别结果，本示例成功识别出图片中的文本为"TONGYI Qwen"。

五、常见问题解决

5.1 服务启动失败

检查NPU设备是否正确挂载：ls /dev/davinci*
确认模型权重路径是否正确：/root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-35B-A3B/
调整--tensor-parallel-size参数匹配实际硬件配置

5.2 多模态请求超时

减少--max-model-len参数值
降低--gpu-memory-utilization（默认0.94）
确保网络环境可正常访问图像URL

六、总结与注意事项

Qwen3.5-35B-A3B通过简洁的API接口，为开发者提供了强大的图文融合推理能力。当前版本已支持基础多模态功能，但仍在持续性能优化中。使用时请注意：

模型仅供非商业用途，需遵守相关License协议
多节点部署与PD分离功能暂未开放测试
遇到问题可通过项目Issue进行反馈

如需获取更多技术细节，可参考官方文档或通过源码构建方式进行深度定制。

【免费下载链接】Qwen3.5-35B-A3B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-35B-A3B

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git