CANN端侧部署实践

端侧AI是指将AI模型部署在终端设备上，如手机、相机、IoT设备等。CANN为端侧部署提供了完整的解决方案。CANN端侧部署提供了完整的解决方案，从模型转换优化到应用开发部署。通过合理的设计和优化，可以在资源受限的端侧设备上实现高效的AI推理。端侧AI应用正在快速发展，CANN作为昇腾AI处理器的软件栈，为端侧AI应用开发提供了强大的支持。

2501_93640701

307人浏览 · 2026-02-06 21:50:06

2501_93640701 · 2026-02-06 21:50:06 发布

CANN端侧部署实践

CANN组织链接：https://atomgit.com/cann
CANN community仓库链接：https://atomgit.com/cann/community

一、端侧部署概述

1.1 端侧AI应用场景

端侧AI是指将AI模型部署在终端设备上，如手机、相机、IoT设备等。CANN为端侧部署提供了完整的解决方案。

1.1.1 主要应用场景

智能摄像头：人脸识别、行为分析
智能手机：图像增强、语音助手
自动驾驶：环境感知、决策控制
工业检测：缺陷检测、质量判断
医疗设备：影像分析、辅助诊断

1.2 端侧部署挑战

1.2.1 资源限制

计算能力有限
内存容量较小
功耗限制严格
存储空间有限

1.2.2 性能要求

实时性要求高
低延迟响应
高吞吐量需求

1.3 CANN端侧部署优势

轻量级运行时
高效推理引擎
完善的工具链
多硬件平台支持

二、端侧环境准备

2.1 硬件平台

2.1.1 Atlas 200 DK开发者套件

Atlas 200 DK是华为推出的端侧AI开发套件，基于Ascend 310芯片。

# 查看设备信息
npu-smi info

# 预期输出
# +----------------------+---------------+-------------------------------------------------------+
# | NPU     Name         Health        Power(mW)        Temp(C)         Hugepages-Usage(page)  |
# +----------------------+---------------+-------------------------------------------------------+
# | 0       310          OK            15000            42              0   / 0                  |
# +----------------------+---------------+-------------------------------------------------------+

2.1.2 设备初始化

# 设置设备性能模式
npu-smi set -t performance -i 0

# 查看设备属性
npu-smi info -t product -i 0

2.2 软件环境

2.2.1 安装CANN运行时

# 下载CANN运行时包
wget https://repo.huaweicloud.com/kunpeng/pool/yuming/Ascend/ascend-repo/latest/ascend-repo.tar.gz

# 解压安装
tar -zxvf ascend-repo.tar.gz
cd ascend-repo

# 安装运行时
sudo apt-get install ascend-runtime_<version>_ubuntu18.04.aarch64.rpm

# 配置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh

2.2.2 交叉编译环境

# 安装交叉编译工具链
sudo apt-get install gcc-aarch64-linux-gnu g++-aarch64-linux-gnu

# 设置交叉编译环境
export CC=aarch64-linux-gnu-gcc
export CXX=aarch64-linux-gnu-g++

三、模型转换与优化

3.1 端侧模型转换

3.1.1 转换为端侧格式

# 转换为Atlas 200 DK格式
atc --framework=5 \
    --model=model.onnx \
    --output=model_310 \
    --soc_version=Ascend310 \
    --input_format=NCHW \
    --input_shape="input:1,3,224,224" \
    --enable_small_channel=1 \
    --opt_level=2

3.1.2 端侧优化选项

# 启用端侧优化
atc --framework=5 \
    --model=model.onnx \
    --output=model_optimized \
    --soc_version=Ascend310 \
    --input_format=NCHW \
    --enable_small_channel=1 \
    --op_type_map="conv2d:fp16,add:fp16" \
    --enable_compress_weight=1 \
    --compress_weight_config=weight_compress.ini

3.2 模型压缩

3.2.1 权重压缩配置

# weight_compress.ini
[weight_compress]
compress_mode=4
enable_mid_result_compress=1
compress_mid_result_num=10

3.2.2 量化模型

import torch
import torch.quantization as quant

# 动态量化
def quantize_model(model):
    """量化模型"""
    # 配置量化
    model.qconfig = quant.get_default_qconfig('fbgemm')

    # 准备量化
    quant.prepare(model, inplace=True)

    # 校准（使用代表性数据）
    # ... 校准代码 ...

    # 转换为量化模型
    quant.convert(model, inplace=True)

    return model

# 使用示例
quantized_model = quantize_model(model)

四、端侧推理应用开发

4.1 基础推理应用

4.1.1 C语言实现

#include <stdio.h>
#include <stdlib.h>
#include "acl/acl.h"

#define ACL_RETCODE_SUCCESS 0
#define MODEL_PATH "model/resnet50_310.om"

// 全局变量
aclrtContext g_context = NULL;
uint32_t g_modelId = 0;
aclmdlDesc *g_modelDesc = NULL;

// 初始化资源
int InitResource() {
    const char *aclConfigPath = "../data/config/acl.json";
    aclError ret = aclInit(aclConfigPath);
    if (ret != ACL_SUCCESS) {
        printf("acl init failed, ret = %d\n", ret);
        return -1;
    }

    ret = aclrtSetDevice(0);
    if (ret != ACL_SUCCESS) {
        printf("set device failed, ret = %d\n", ret);
        return -1;
    }

    ret = aclrtCreateContext(&g_context, 0);
    if (ret != ACL_SUCCESS) {
        printf("create context failed, ret = %d\n", ret);
        return -1;
    }

    // 加载模型
    ret = aclmdlLoadFromFile(MODEL_PATH, &g_modelId);
    if (ret != ACL_SUCCESS) {
        printf("load model failed, ret = %d\n", ret);
        return -1;
    }

    // 创建模型描述
    g_modelDesc = aclmdlCreateDesc();
    ret = aclmdlGetDesc(g_modelDesc, g_modelId);
    if (ret != ACL_SUCCESS) {
        printf("get model desc failed, ret = %d\n", ret);
        return -1;
    }

    printf("init resource success\n");
    return 0;
}

// 执行推理
int ExecuteInference(const char *imagePath) {
    // 读取并预处理图像
    // ... 图像读取代码 ...

    // 准备输入
    size_t inputSize = aclmdlGetInputSizeByIndex(g_modelDesc, 0);
    void *inputBuffer = NULL;
    aclError ret = aclrtMalloc(&inputBuffer, inputSize, ACL_MEM_MALLOC_HUGE_FIRST);
    if (ret != ACL_SUCCESS) {
        printf("malloc input buffer failed, ret = %d\n", ret);
        return -1;
    }

    // 拷贝数据
    ret = aclrtMemcpy(inputBuffer, inputSize, imageData, inputSize, ACL_MEMCPY_HOST_TO_DEVICE);
    if (ret != ACL_SUCCESS) {
        printf("memcpy input failed, ret = %d\n", ret);
        aclrtFree(inputBuffer);
        return -1;
    }

    // 创建数据集
    aclmdlDataset *inputDataset = aclmdlCreateDataset();
    aclDataBuffer *inputDataBuffer = aclCreateDataBuffer(inputBuffer, inputSize);
    aclmdlAddDatasetBuffer(inputDataset, inputDataBuffer);

    // 准备输出
    size_t outputSize = aclmdlGetOutputSizeByIndex(g_modelDesc, 0);
    void *outputBuffer = NULL;
    ret = aclrtMalloc(&outputBuffer, outputSize, ACL_MEM_MALLOC_HUGE_FIRST);
    if (ret != ACL_SUCCESS) {
        printf("malloc output buffer failed, ret = %d\n", ret);
        aclrtFree(inputBuffer);
        return -1;
    }

    aclmdlDataset *outputDataset = aclmdlCreateDataset();
    aclDataBuffer *outputDataBuffer = aclCreateDataBuffer(outputBuffer, outputSize);
    aclmdlAddDatasetBuffer(outputDataset, outputDataBuffer);

    // 执行推理
    ret = aclmdlExecute(g_modelId, inputDataset, outputDataset);
    if (ret != ACL_SUCCESS) {
        printf("execute inference failed, ret = %d\n", ret);
        aclrtFree(inputBuffer);
        aclrtFree(outputBuffer);
        return -1;
    }

    // 获取输出
    void *outputData = NULL;
    ret = aclrtMallocHost(&outputData, outputSize);
    if (ret != ACL_SUCCESS) {
        printf("malloc host output failed, ret = %d\n", ret);
        aclrtFree(inputBuffer);
        aclrtFree(outputBuffer);
        return -1;
    }

    ret = aclrtMemcpy(outputData, outputSize, outputBuffer, outputSize, ACL_MEMCPY_DEVICE_TO_HOST);
    if (ret != ACL_SUCCESS) {
        printf("memcpy output failed, ret = %d\n", ret);
        aclrtFree(inputBuffer);
        aclrtFree(outputBuffer);
        aclrtFreeHost(outputData);
        return -1;
    }

    // 处理输出结果
    // ... 后处理代码 ...

    // 清理资源
    aclrtFree(inputBuffer);
    aclrtFree(outputBuffer);
    aclrtFreeHost(outputData);
    aclmdlDestroyDataset(inputDataset);
    aclmdlDestroyDataset(outputDataset);

    return 0;
}

// 释放资源
void ReleaseResource() {
    if (g_modelDesc) {
        aclmdlDestroyDesc(g_modelDesc);
    }
    if (g_modelId) {
        aclmdlUnload(g_modelId);
    }
    if (g_context) {
        aclrtDestroyContext(g_context);
    }
    aclrtResetDevice(0);
    aclFinalize();
}

int main(int argc, char *argv[]) {
    if (argc < 2) {
        printf("Usage: %s <image_path>\n", argv[0]);
        return -1;
    }

    // 初始化
    if (InitResource() != 0) {
        return -1;
    }

    // 执行推理
    if (ExecuteInference(argv[1]) != 0) {
        ReleaseResource();
        return -1;
    }

    // 释放资源
    ReleaseResource();

    return 0;
}

4.1.2 Python实现

import acl
import numpy as np
import cv2

class EdgeInference:
    def __init__(self, model_path, device_id=0):
        """端侧推理类"""
        self.model_path = model_path
        self.device_id = device_id
        self._init_resource()
        self._load_model()

    def _init_resource(self):
        """初始化ACL资源"""
        # 初始化ACL
        ret = acl.init()
        if ret != 0:
            raise Exception(f"acl init failed, ret = {ret}")

        # 设置设备
        ret = acl.rt.set_device(self.device_id)
        if (ret != 0):
            raise Exception(f"set device failed, ret = {ret}")

        # 创建上下文
        self.context, ret = acl.rt.create_context(self.device_id)
        if ret != 0:
            raise Exception(f"create context failed, ret = {ret}")

    def _load_model(self):
        """加载模型"""
        self.model_id, ret = acl.mdl.load_from_file(self.model_path)
        if ret != 0:
            raise Exception(f"load model failed, ret = {ret}")

        self.model_desc = acl.mdl.create_desc()
        ret = acl.mdl.get_desc(self.model_desc, self.model_id)
        if ret != 0:
            raise Exception(f"get model desc failed, ret = {ret}")

    def preprocess(self, image_path):
        """预处理图像"""
        image = cv2.imread(image_path)
        image = cv2.resize(image, (224, 224))
        image = image.astype(np.float32) / 255.0
        image = np.transpose(image, (2, 0, 1))
        image = np.expand_dims(image, axis=0)
        return image.astype(np.float32)

    def inference(self, image_path):
        """执行推理"""
        # 预处理
        input_data = self.preprocess(image_path)

        # 准备输入
        input_size = acl.mdl.get_input_size_by_index(self.model_desc, 0)
        input_buffer, ret = acl.rt.malloc(input_size, 0)

        bytes_data = input_data.tobytes()
        ret = acl.rt.memcpy(input_buffer, input_size, bytes_data, input_size, 1)

        input_dataset = acl.mdl.create_dataset()
        data_buffer = acl.create_data_buffer(input_buffer, input_size)
        acl.mdl.add_dataset_buffer(input_dataset, data_buffer)

        # 准备输出
        output_size = acl.mdl.get_output_size_by_index(self.model_desc, 0)
        output_buffer, ret = acl.rt.malloc(output_size, 0)
        output_dataset = acl.mdl.create_dataset()
        output_data_buffer = acl.create_data_buffer(output_buffer, output_size)
        acl.mdl.add_dataset_buffer(output_dataset, output_data_buffer)

        # 执行推理
        ret = acl.mdl.execute(self.model_id, input_dataset, output_dataset)

        # 获取输出
        output_ptr = acl.get_data_buffer_addr(output_data_buffer)
        output_data = bytearray(output_size)
        ret = acl.rt.memcpy(output_data, output_size, output_ptr, output_size, 0)

        output_array = np.frombuffer(output_data, dtype=np.float32)

        # 清理
        acl.rt.free(input_buffer)
        acl.rt.free(output_buffer)
        acl.mdl.destroy_dataset(input_dataset)
        acl.mdl.destroy_dataset(output_dataset)

        return output_array

    def __del__(self):
        """释放资源"""
        if hasattr(self, 'model_desc'):
            acl.mdl.destroy_desc(self.model_desc)
        if hasattr(self, 'model_id'):
            acl.mdl.unload(self.model_id)
        if hasattr(self, 'context'):
            acl.rt.destroy_context(self.context)
        acl.rt.reset_device(self.device_id)
        acl.finalize()

# 使用示例
if __name__ == "__main__":
    inferencer = EdgeInference("model/resnet50_310.om")
    result = inferencer.inference("test_image.jpg")
    print(f"Prediction: {result.argmax()}")

4.2 视频流处理应用

import cv2
import acl
import time

class VideoStreamProcessor:
    def __init__(self, model_path, device_id=0):
        """视频流处理器"""
        self.inference = EdgeInference(model_path, device_id)
        self.running = False

    def process_stream(self, camera_id=0):
        """处理视频流"""
        cap = cv2.VideoCapture(camera_id)
        self.running = True

        frame_count = 0
        total_time = 0

        while self.running:
            ret, frame = cap.read()
            if not ret:
                break

            start_time = time.time()

            # 保存临时帧
            temp_path = f"temp_frame_{frame_count}.jpg"
            cv2.imwrite(temp_path, frame)

            # 推理
            result = self.inference.inference(temp_path)

            # 后处理并显示
            # ... 后处理代码 ...
            cv2.imshow("Edge AI", frame)

            # 计算FPS
            elapsed = time.time() - start_time
            total_time += elapsed
            frame_count += 1

            fps = frame_count / total_time if total_time > 0 else 0
            print(f"FPS: {fps:.2f}")

            if cv2.waitKey(1) & 0xFF == ord('q'):
                break

        cap.release()
        cv2.destroyAllWindows()

    def stop(self):
        """停止处理"""
        self.running = False

# 使用示例
if __name__ == "__main__":
    processor = VideoStreamProcessor("model/resnet50_310.om")
    processor.process_stream(0)

五、端侧性能优化

5.1 内存优化

5.1.1 内存池管理

class EdgeMemoryPool:
    def __init__(self, input_size, output_size, pool_size=5):
        """端侧内存池"""
        self.input_size = input_size
        self.output_size = output_size
        self.pool_size = pool_size

        # 预分配内存
        self.input_pool = []
        self.output_pool = []

        for _ in range(pool_size):
            input_buf, ret = acl.rt.malloc(input_size, 0)
            output_buf, ret = acl.rt.malloc(output_size, 0)
            self.input_pool.append(input_buf)
            self.output_pool.append(output_buf)

        self.index = 0

    def get_buffer(self):
        """获取缓冲区"""
        idx = self.index % self.pool_size
        self.index += 1
        return self.input_pool[idx], self.output_pool[idx]

    def release(self):
        """释放所有内存"""
        for buf in self.input_pool + self.output_pool:
            acl.rt.free(buf)
        self.input_pool.clear()
        self.output_pool.clear()

5.1.2 数据复用

def optimize_memory_usage():
    """优化内存使用"""
    # 复用输入输出缓冲区
    input_buffer, output_buffer = memory_pool.get_buffer()

    # 拷贝数据
    acl.rt.memcpy(input_buffer, input_size, data, input_size, 1)

    # 推理
    acl.mdl.execute(model_id, input_dataset, output_dataset)

    # 获取结果后立即释放
    # ... 处理结果 ...

    # 缓冲区自动返回池中

5.2 功耗优化

class PowerManager:
    def __init__(self, device_id=0):
        """功耗管理器"""
        self.device_id = device_id

    def set_performance_mode(self, mode="performance"):
        """设置性能模式"""
        if mode == "performance":
            # 高性能模式
            acl.rt.set_device(self.device_id)
        elif mode == "power_save":
            # 节能模式
            # 降低频率等
            pass

    def get_power_info(self):
        """获取功耗信息"""
        # 使用npu-smi获取功耗信息
        import subprocess
        result = subprocess.run(
            ["npu-smi", "info", "-t", "power", "-i", str(self.device_id)],
            capture_output=True, text=True
        )
        return result.stdout

5.3 实时性优化

class RealtimeProcessor:
    def __init__(self, model_path):
        """实时处理器"""
        self.model_path = model_path
        self.inference = EdgeInference(model_path)
        self.frame_queue = queue.Queue(maxsize=2)

    def capture_thread(self, camera_id):
        """图像采集线程"""
        cap = cv2.VideoCapture(camera_id)

        while True:
            ret, frame = cap.read()
            if not ret:
                break

            # 如果队列满，丢弃最旧的帧
            if self.frame_queue.full():
                self.frame_queue.get_nowait()

            self.frame_queue.put(frame)

        cap.release()

    def inference_thread(self):
        """推理线程"""
        while True:
            frame = self.frame_queue.get()

            # 推理
            temp_path = "temp_frame.jpg"
            cv2.imwrite(temp_path, frame)
            result = self.inference.inference(temp_path)

            # 显示结果
            # ... 显示代码 ...

    def start(self, camera_id=0):
        """启动处理"""
        import threading

        capture_t = threading.Thread(target=self.capture_thread, args=(camera_id,))
        inference_t = threading.Thread(target=self.inference_thread)

        capture_t.start()
        inference_t.start()

        capture_t.join()
        inference_t.join()

六、实际应用案例

6.1 智能摄像头应用

class SmartCamera:
    def __init__(self, detector_model, classifier_model):
        """智能摄像头"""
        self.detector = EdgeInference(detector_model)
        self.classifier = EdgeInference(classifier_model)

    def process_frame(self, frame):
        """处理帧"""
        # 检测人员
        detections = self.detector.inference(frame)

        # 识别每个检测到的人
        results = []
        for det in detections:
            # 裁剪
            crop = self._crop_person(frame, det)
            # 识别
            identity = self.classifier.inference(crop)
            results.append({
                "bbox": det,
                "identity": identity
            })

        return results

    def _crop_person(self, frame, detection):
        """裁剪人员区域"""
        x1, y1, x2, y2 = detection["bbox"]
        return frame[y1:y2, x1:x2]

6.2 工业检测应用

class IndustrialInspector:
    def __init__(self, defect_model):
        """工业检测器"""
        self.model = EdgeInference(defect_model)
        self.threshold = 0.8

    def inspect(self, image_path):
        """检测缺陷"""
        result = self.model.inference(image_path)

        # 判断是否有缺陷
        has_defect = result.max() > self.threshold

        if has_defect:
            # 定位缺陷位置
            defect_location = self._locate_defect(result)

            return {
                "has_defect": True,
                "location": defect_location,
                "confidence": float(result.max())
            }
        else:
            return {
                "has_defect": False,
                "confidence": float(result.max())
            }

    def _locate_defect(self, result):
        """定位缺陷"""
        # 实现缺陷定位逻辑
        return {"x": 100, "y": 200, "w": 50, "h": 50}

七、部署与发布

7.1 打包应用

# 创建部署包
mkdir -p deployment/
cp model/resnet50_310.om deployment/
cp edge_inference deployment/
cp -r lib deployment/

# 打包
tar -czf edge_ai_app.tar.gz deployment/

7.2 远程部署

# 传输到目标设备
scp edge_ai_app.tar.gz root@<device_ip>:/home/

# 在目标设备上解压
ssh root@<device_ip>
cd /home/
tar -xzf edge_ai_app.tar.gz

# 运行应用
cd deployment/
./edge_inference

八、总结

CANN端侧部署提供了完整的解决方案，从模型转换优化到应用开发部署。通过合理的设计和优化，可以在资源受限的端侧设备上实现高效的AI推理。

端侧AI应用正在快速发展，CANN作为昇腾AI处理器的软件栈，为端侧AI应用开发提供了强大的支持。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git

腾讯云开发者社区

所有评论(0)

查看更多评论

2501_93640701

@2501_93640701

已为社区贡献1条内容

CANN端侧部署实践

2501_93640701

CANN端侧部署实践

一、端侧部署概述

1.1 端侧AI应用场景

1.1.1 主要应用场景

1.2 端侧部署挑战

1.2.1 资源限制

1.2.2 性能要求

1.3 CANN端侧部署优势

二、端侧环境准备

2.1 硬件平台

2.1.1 Atlas 200 DK开发者套件

2.1.2 设备初始化

2.2 软件环境

2.2.1 安装CANN运行时

2.2.2 交叉编译环境

三、模型转换与优化

3.1 端侧模型转换

3.1.1 转换为端侧格式

3.1.2 端侧优化选项

3.2 模型压缩

3.2.1 权重压缩配置

3.2.2 量化模型

四、端侧推理应用开发

4.1 基础推理应用

4.1.1 C语言实现

4.1.2 Python实现

4.2 视频流处理应用

五、端侧性能优化

5.1 内存优化

5.1.1 内存池管理

5.1.2 数据复用

5.2 功耗优化

5.3 实时性优化

六、实际应用案例

6.1 智能摄像头应用

6.2 工业检测应用

七、部署与发布

7.1 打包应用

7.2 远程部署

八、总结

所有评论(0)

温馨提示：您尚未绑定手机号

2501_93640701