Qwen3.5-35B-A3B多模态能力实测:图文融合推理API调用与示例解析

【免费下载链接】Qwen3.5-35B-A3B 【免费下载链接】Qwen3.5-35B-A3B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-35B-A3B

Qwen3.5-35B-A3B是一款基于MoE架构的旗舰级多模态模型,具备原生图文融合推理能力,能高效处理图像与文本信息。本文将为您详细介绍如何通过API调用体验其强大的多模态功能,包含环境部署、请求发送及结果解析等实用内容。

一、模型核心能力解析

Qwen3.5-35B-A3B作为新一代多模态模型,其核心优势在于:

  • 原生多模态架构:集成Vision Encoder与图文融合模块,可直接处理图像输入
  • 混合注意力机制:Full Attention与Linear-Attention交替工作,平衡性能与效率
  • MTP多Token预测分支:提升长文本生成质量与连贯性
  • 高效MoE专家机制:通过专家路由实现计算资源的智能分配

二、环境准备指南

2.1 模型权重获取

首先需要下载BF16版本的模型权重:下载模型权重,建议保存至共享目录如/root/.cache/

2.2 快速部署方式

推荐使用官方Docker镜像进行部署,步骤如下:

# 加载镜像
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar

# 运行容器(根据实际设备调整--device参数)
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci_manager \
-v /root/.cache:/root/.cache \
-it $IMAGE bash

三、单节点服务启动

在容器内执行以下命令启动推理服务:

export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_OP_EXPANSION_MODE="AIV"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-35B-A3B/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --tensor-parallel-size 4 \
    --max-model-len 5000 \
    --async-scheduling \
    --allowed-local-media-path /

服务启动成功后,即可通过API接口进行多模态推理。

四、图文融合API调用实例

4.1 基础请求格式

使用curl发送多模态请求,包含图像URL与文本提问:

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
    -d '{
        "model": "qwen3.5",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": [
                {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
                {"type": "text", "text": "What is the text in the illustrate?"}
            ]}
        ]
    }'

4.2 响应结果解析

成功调用后返回JSON格式结果,关键信息包括:

{
  "id": "chatcmpl-9dab99d55addd8c0",
  "object": "chat.completion",
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "TONGYI Qwen"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 112,
    "total_tokens": 119,
    "completion_tokens": 7
  }
}

其中content字段即为模型对图像内容的识别结果,本示例成功识别出图片中的文本为"TONGYI Qwen"。

五、常见问题解决

5.1 服务启动失败

  • 检查NPU设备是否正确挂载:ls /dev/davinci*
  • 确认模型权重路径是否正确:/root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-35B-A3B/
  • 调整--tensor-parallel-size参数匹配实际硬件配置

5.2 多模态请求超时

  • 减少--max-model-len参数值
  • 降低--gpu-memory-utilization(默认0.94)
  • 确保网络环境可正常访问图像URL

六、总结与注意事项

Qwen3.5-35B-A3B通过简洁的API接口,为开发者提供了强大的图文融合推理能力。当前版本已支持基础多模态功能,但仍在持续性能优化中。使用时请注意:

  1. 模型仅供非商业用途,需遵守相关License协议
  2. 多节点部署与PD分离功能暂未开放测试
  3. 遇到问题可通过项目Issue进行反馈

如需获取更多技术细节,可参考官方文档或通过源码构建方式进行深度定制。

【免费下载链接】Qwen3.5-35B-A3B 【免费下载链接】Qwen3.5-35B-A3B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-35B-A3B

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐