边缘计算AI的未来？体验全球最小的多模态视觉模型：OmniVision-968M

在生成式AI的应用中，模型随着尺寸的增大，综合能力一般更强，但需要意识到，并不是所有场景都需要大模型，特别是在资源受限的边缘计算AI需求中。**边缘计算与生成式AI**边缘计算与生成式AI边缘计算是一种将计算资源与处理下沉到更靠近数据源或终端位置，而非在集中的云端中心进行处理的模式。这种方式可以有效降低数据传输与延迟、提升响应速度并保护用户隐私，在智能家居、自动驾驶、工业互联网等领域具有广阔的应用

AIGC莹子

1723人浏览 · 2024-11-29 10:56:24

AIGC莹子 · 2024-11-29 10:56:24 发布

在生成式AI的应用中，模型随着尺寸的增大，综合能力一般更强，但需要意识到，并不是所有场景都需要大模型，特别是在资源受限的边缘计算AI需求中。本篇带领伙伴们认识最近推出的全球最小的多模态视觉模型（VLM）：OmniVision-968M。

**边缘计算与生成式AI
**
边缘小模型的独特优势
最小的多模态小模型
本地体验教程：OmniVision-968M

边缘计算与生成式AI

边缘计算是一种将计算资源与处理下沉到更靠近数据源或终端位置，而非在集中的云端中心进行处理的模式。这种方式可以有效降低数据传输与延迟、提升响应速度并保护用户隐私，在智能家居、自动驾驶、工业互联网等领域具有广阔的应用前景。

在典型的智能家居场景中，设备需要快速响应人类指令与环境信息。如果把每次的人类指令或环境信息（比如监控摄像头视频）等都传送到云端，将会产生较大的延迟与堵塞现象。很显然，在本地的指令识别、视频分析等可以大大的提高响应速度，增强用户体验。这本质上是一种把集中计算能力分布到海量的边缘设备来协同完成的分布式计算方式。

随着生成式AI的爆发，赋予了边缘计算更强大的可能，如更精准的本地自然语言处理、多媒体信息分析、语音指令交互等，这些可以极大的提升智能家居、自动驾驶等场景的智能化程度。

但随之而来的问题是，大型的生成式AI模型在边缘计算中并不适用，极大的计算资源、功耗、以及对网络的依赖，决定了传统大模型无法在边缘设备部署。因此，能够部署与运行在端侧的各类“小”模型（On-Device Models）就成了边缘计算+生成式AI的重要支柱。

边缘小模型的独特优势

大模型这么强大，为什么还需要小模型？这个问题就像“为什么Oracle数据库这么强大，你还在用PostgreSQL甚至SQLite？”，道理很简单：**受限于各种客观条件，很多时候我们并不需要一个全能的工具，而需要一个专注而精简的工具。**这至少可以从两个方面理解：

你要处理的问题集中在特别领域，如某个边缘设备上的指令识别
你要处理的场景可能并不需要那么强大的理解与推理能力

小模型的独特优势在于，**通过剪枝、量化、知识蒸馏等技术手段，将大型模型中冗余的部分裁剪掉，从而显著降低参数量和计算复杂度。**这种优化让小模型能够高效运行于资源有限的边缘设备上，而不会牺牲太多性能：

小模型以其轻量化设计，能够在内存、存储空间受限的设备上部署。如离线的快速提取身份证或驾照中的信息，不仅提升了速度，还消除了隐私泄露。
小模型的功耗极低，特别适合电池驱动的边缘设备，这有利于工业物联网领域一些依赖于电池的边缘设备更长时间的运行。
由于小模型的推理过程需要的计算量更少，能够在实时场景中提供迅速的反馈。例如在安防监控与自动驾驶中，实时分析摄像头画面作出快速决策。
此外，小模型还可以方便的针对特定场景或任务进行高度定制化。这种专注于单一任务的优化策略，使小模型能够在特定场景中表现甚至超过大模型。

总体来说，优秀的“小”模型需要具备的特点：轻量级部署、快速、低能耗，以及在特定领域下输出能力接近甚至超过大模型。

最小的多模态小模型：OmniVision-968M

OmniVision-968M是专注小模型工具与生态的独角兽NexaAI公司最近推出的视觉模型，是一个面向边缘计算AI需求的紧凑型模型（该公司早期曾推出Octopus v2这样的设备端模型而一鸣惊人）。正如它的名字，这个模型只有不到1B的9.68亿个参数，非常适合手机、智能家居、物联网设备等边缘设备的轻量级AI解决方案。简单总结其特点：

1. 高效的 Token 压缩：实现 9 倍缩减

传统的多模态模型（如开源 LLaVA）在处理视觉数据时需要大量的 tokens。OmniVision-968M 引入了一种创新机制使视觉数据处理时的token 数量减少了九倍，极大地降低了模型的延迟和计算成本，同时保持了高准确度。

2. 基于直接偏好优化（DPO）的模型准确性提升

多模态模型常见的挑战之一是减少“幻觉”（即生成不准确或无关的输出）。OmniVision 采用了一种特殊的 DPO 训练方法来优化模型响应。这种方法在不显著改变模型原有响应风格的情况下，提升了准确性，使得模型在实际边缘场景中的应用更加可靠。

3. 领先的架构设计

OmniVision 的架构设计由三个核心组件组成：

基础语言模型：使用 Qwen2.5–0.5B-Instruct，专为高效文本处理优化，提供强大的语言理解能力。
视觉编码器：配备 SigLIP-400M，以 384 分辨率和 14×14 的 patch 大小生成高质量图像嵌入，为视觉数据提供精细的表示。
投影层：一个复杂的多层感知机（MLP），将视觉编码器的输出与语言模型的 token 空间对齐。

OmniVision-968M 在多个基准数据集上与其他紧凑型多模态模型（如 nanoLLAVA）进行了对比评估，结果表明OmniVision在各种多模态的任务中表现都优于nanoLlaVa：

本地体验教程：OmniVision-968M

你可以轻易的在本地体验这个轻量级的多模态模型。请参考如下教程：

第一步：安装NexaSDK

NexaAI推出的类似于ollama的模型推理框架，支持GGUF与ONNX类型的多种模型。通过NexaAI的命令行工具，可以快速从NexaAI的模型Hub中拉取多种小模型到本地运行与推理。NexaAI支持各种操作系统、支持CPU与GPU推理，使用也非常简单（类似Ollama）。

NexaSDK的安装支持两种方式，一种是安装包安装：

另外一种是pip install安装，这需要根据不同的操作系统、CPU、或者GPU类型，运行不同的pip install安装指令，具体可参考官方文档(https://docs.nexa.ai/)。

第二步：运行OmniVision-968M模型

安装完成后，使用Neca CLI命令即可运行OmniVision-968M模型。

> nexa run omnivision

如果你需要使用图形界面，使用如下命令，会自动打开基于StreamLit的WebUI：

> nexa run omnivision -st

第三步：使用OmniVision做视觉分析

通过NexaAI命令行或者图形界面，你可以对图片做分析（暂时还只支持英文指令与输出），比如输出图片描述，或者识别图中元素等。

* 描述图片

照片中发生了什么？

* 场景建议

图中的场景下驾驶需要注意什么？

* 标志识别

这个标志什么意思？

整个过程中，模型的识别与推理速度相比之前的多模态模型有了极大的提升，基本都可以在2-3秒内完成全部输出，感兴趣的朋友可以自行体验。

这里我们探讨了生成式AI中除了大模型以外的另一种可能：小模型在边缘计算AI中的应用。随着边缘 AI 的持续发展，像 OmniVision-968M 这样的小模型为构建更智能、更高响应速度的应用提供了支持，也不断拓展了生成式AI的应用边界，并在增强现实、物联网、智能家居和智能城市基础设施等领域展示出巨大的潜力。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git