Lida:LLM驱动的数据可视化革命,5分钟从零生成专业图表
·
Qwen3.5-35B-A3B多模态能力实测:图文融合推理API调用与示例解析
【免费下载链接】Qwen3.5-35B-A3B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-35B-A3B
Qwen3.5-35B-A3B是一款基于MoE架构的旗舰级多模态模型,具备原生图文融合推理能力,能高效处理图像与文本信息。本文将为您详细介绍如何通过API调用体验其强大的多模态功能,包含环境部署、请求发送及结果解析等实用内容。
一、模型核心能力解析
Qwen3.5-35B-A3B作为新一代多模态模型,其核心优势在于:
- 原生多模态架构:集成Vision Encoder与图文融合模块,可直接处理图像输入
- 混合注意力机制:Full Attention与Linear-Attention交替工作,平衡性能与效率
- MTP多Token预测分支:提升长文本生成质量与连贯性
- 高效MoE专家机制:通过专家路由实现计算资源的智能分配
二、环境准备指南
2.1 模型权重获取
首先需要下载BF16版本的模型权重:下载模型权重,建议保存至共享目录如/root/.cache/。
2.2 快速部署方式
推荐使用官方Docker镜像进行部署,步骤如下:
# 加载镜像
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar
# 运行容器(根据实际设备调整--device参数)
export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci_manager \
-v /root/.cache:/root/.cache \
-it $IMAGE bash
三、单节点服务启动
在容器内执行以下命令启动推理服务:
export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_OP_EXPANSION_MODE="AIV"
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-35B-A3B/ \
--served-model-name "qwen3.5" \
--host 0.0.0.0 \
--port 8010 \
--tensor-parallel-size 4 \
--max-model-len 5000 \
--async-scheduling \
--allowed-local-media-path /
服务启动成功后,即可通过API接口进行多模态推理。
四、图文融合API调用实例
4.1 基础请求格式
使用curl发送多模态请求,包含图像URL与文本提问:
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
{"type": "text", "text": "What is the text in the illustrate?"}
]}
]
}'
4.2 响应结果解析
成功调用后返回JSON格式结果,关键信息包括:
{
"id": "chatcmpl-9dab99d55addd8c0",
"object": "chat.completion",
"choices": [
{
"message": {
"role": "assistant",
"content": "TONGYI Qwen"
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 112,
"total_tokens": 119,
"completion_tokens": 7
}
}
其中content字段即为模型对图像内容的识别结果,本示例成功识别出图片中的文本为"TONGYI Qwen"。
五、常见问题解决
5.1 服务启动失败
- 检查NPU设备是否正确挂载:
ls /dev/davinci* - 确认模型权重路径是否正确:
/root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-35B-A3B/ - 调整
--tensor-parallel-size参数匹配实际硬件配置
5.2 多模态请求超时
- 减少
--max-model-len参数值 - 降低
--gpu-memory-utilization(默认0.94) - 确保网络环境可正常访问图像URL
六、总结与注意事项
Qwen3.5-35B-A3B通过简洁的API接口,为开发者提供了强大的图文融合推理能力。当前版本已支持基础多模态功能,但仍在持续性能优化中。使用时请注意:
- 模型仅供非商业用途,需遵守相关License协议
- 多节点部署与PD分离功能暂未开放测试
- 遇到问题可通过项目Issue进行反馈
如需获取更多技术细节,可参考官方文档或通过源码构建方式进行深度定制。
【免费下载链接】Qwen3.5-35B-A3B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-35B-A3B
更多推荐
所有评论(0)