Spectral convolutional neural network chip for in-sensor edge computing of incoherent natural light

欣雨小可爱耶

716人浏览 · 2026-01-24 22:29:10

欣雨小可爱耶 · 2026-01-24 22:29:10 发布

论文基本信息 (Basic Information)

标题 (Title)	Spectral convolutional neural network chip for in-sensor edge computing of incoherent natural light
Adress	https://doi.org/10.1038/s41467-024-55558-3
Journal/Time	nature communications 202412
Author	清华大学电子工程系

1. 核心思想 (Core Idea)

问题：
电子计算瓶颈：传统CNN在边缘设备（如手机、IoT）上运行耗能大、延迟高。卷积操作占据了绝大部分算力。
传统光计算局限：以前的光神经网络（ONN）通常依赖相干光（激光），这意味着必须把自然场景先录下来，再用激光编码输入，体积大且难以实时处理自然场景。
传统视觉的“存算分离”瓶颈：普通摄像头只负责拍照片然后把数据传给 GPU 去算。这中间的数据传输消耗了巨大的能量和时间。

解决：

直接处理自然光（Incoherent Light）。不需要把光转成相干光。利用自然光中携带的丰富光谱信息，直接在传感器端进行处理。
滤波器即权重（Filters as Weights）。将卷积核的权重 $w$ 编码进光谱滤波器的透射光谱 $t(λ)t(\lambda)$ 中。光透过滤波器被传感器积分的过程，数学上就是一个向量内积运算（卷积的核心）。
感内计算（In-Sensor Computing）。计算发生在光子撞击传感器的瞬间。这使得在数据进入电层之前，就已经完成了第一层卷积操作，数据吞吐量减少了 96% 。传统是 Sensor $→\rightarrow$ Memory $→\rightarrow$ GPU/NPU。这里是 Sensor (Compute) $→\rightarrow$ Output。为了解决数据传输的带宽瓶颈。

光谱卷积神经网络（SCNN）
输入：宽带非相干自然光（Broadband Incoherent Natural Light）。不需要激光，不需要相干光源，就是日常生活中的阳光、环境光。
输出：高层视觉任务的结果。例如，在人脸活体检测中输出“真/假脸”，在病理诊断中输出“甲状腺癌/正常"
表现形式：一个集成了大规模光谱滤波阵列的 CMOS 图像传感器芯片。相当于硬件化的卷积层，把透过来的光转换成电信号完成了积分求和。
在这里插入图片描述
传统的ONN需要复杂的相干光路（图1a）；而的SCNN（图1b）直接放在自然光下，像普通摄像头一样工作。在 CMOS 传感器（CIS）前面加了一层光谱滤波器（Spectral filters）。光打进来，经过滤波器再被传感器接收，这个物理过程直接完成了“卷积”运算。
Fig. 1b (数学映射)：公式 $y = f (W x + b)$ 。 $x$ 是输入的光谱强度（Input spectrum）。 $W$ 是设计的滤波器的透射谱（Transmission spectrum）。关键点：光通过滤波器，强度变为 $\cdot x$ ，传感器将不同波长的能量加在一起（积分 $∫\int$ ），这就是数学上的向量内积（Dot Product）。整个过程不需要电，全靠光学物理完成。

2. 研究背景与动机 (Background and Motivation)

3. 方法论 (Methodology)

整个流程是一个光电混合计算的过程：光层（OCL）：自然光射入芯片 $→\rightarrow$ 透过在像素上定制的“光谱滤波器”（Spectral Filters） $→\rightarrow$ 滤波器对光谱进行调制（这一步物理上等效于卷积运算） $→\rightarrow$ CIS像素将光强转换为电信号。
电层（ENL）：经过光层处理后的特征图（Feature Maps）被送入后端的电学神经网络层（ENLs，运行在普通CPU/嵌入式设备上） $→\rightarrow$ 输出分类或分割结果。

两种制造滤波器的工艺：Fig. 1c：基于超表面（Metasurface），精度高，可定制性强。基于颜料（Pigment），就像传统相机的拜耳滤镜一样，可以在 12 英寸晶圆上大规模量产。

图e：将传感器像素划分为多个 “Super-pixel” (超像素)。每个超像素包含 $\times k$ 个物理像素，对应 $K$ 个卷积核。核心公式：
$vp=∑i=1NIpi=∑i=1N∫λ1λ2xi(λ)wpi(λ)dλ=∑i=1NwkiTxiv_{p}=\sum_{i=1}^{N}I_{pi}=\sum_{i=1}^{N}\int_{\lambda_{1}}^{\lambda_{2}}x_{i}(\lambda)w_{pi}(\lambda)d\lambda=\sum_{i=1}^{N}w_{ki}^{T}x_{i}$
这里， $xi(λ)x_i(\lambda)$ 是输入光谱， $wpi(λ)w_{pi}(\lambda)$ 是滤波器的光谱响应。积分过程（ $∫\int$ ）由光电二极管在物理上瞬间完成。

芯片上的每个小方格（Kernel）就是一个卷积核。
在这里插入图片描述
设计逻辑 (Fig. 2a)：使用**基于梯度的拓扑优化（GMTO）**算法来设计超表面的微观结构。通过梯度下降算法自动设计。
特征分离 (Fig. 2b)：用 PCA 把芯片提取到的特征画在 3D 空间里。通过PCA可视化可以看到，经过设计的光学层处理后，真人的皮肤（Skin）和攻击用的硅胶面具（Silicone）、纸张（Paper）在特征空间上被明显分开了。这证明了光学层提取了极具判别力的光谱特征。
2e（混淆矩阵）在“图像级（Image-level）”分类上，准确率达到了 100.00%。
在这里插入图片描述
展示了芯片在更难的甲状腺病理诊断任务上的表现。输入是病理切片，经过 OCL（光学层）提取特征图，最后通过简单的电子层（ENLs）输出诊断结果。With OCL，像素级准确率 82.0%，图像级 96.4%。Without OCL 像素级准确率掉到了 60.6%。3c（PCA 可视化）在光谱特征空间里明显区分。

在这里插入图片描述

图四量产与微型化。

在这里插入图片描述

实现路径：用光刻工艺和颜料（类似传统Bayer滤镜，但也是特殊设计的光谱响应）在12英寸晶圆上实现了量产。对于边缘计算设备来说至关重要。

4. 实验结果 (Experimental Results)

5. 结论与讨论 (Conclusion & Discussion)

超像素（Super-pixel）的设计权衡：为了实现多通道卷积，在空间上牺牲了一定的分辨率。一个“逻辑像素”（OCU）实际上是由 $\times n$ 个超像素组成的，每个超像素包含 $k$ 个物理像素。 $k$ 越大，光谱通道（卷积核）越多，光谱感知能力越强，但空间分辨率越低。在实验中发现，对于特定任务（如活体检测），光谱特征比空间纹理更重要，所以这种牺牲是值得的。

卷积核尺寸 ( $\times 1$ vs $\times n$ )：虽然架构支持 $\times n$ 的卷积，但在论文展示中，主要使用了 $\times 1$ 卷积（即 $n = 1$ ）。这意味着我们主要是在利用光谱维度的信息进行特征提取，这类似于在光学端做了一个强力的特征工程（Spectral Feature Engineering），极大简化了后续电层的负担。

无透镜显微 (Lensless Microscopy in Pigment Chip)：在图4e中，使用颜料基芯片进行甲状腺切片诊断时，没有使用显微镜，而是直接把切片贴在摄像头镜头上。虽然图像是模糊的（Blurry），缺乏空间纹理，但凭借强大的光谱特征，依然达到了 96.46% 的分类准确率。这有力地证明了光谱信息在特定诊断任务中比空间清晰度更关键。

6. 主要贡献总结 (Summary of Key Contributions)

不仅仅是停留在模拟或笨重的光学平台上，而是做出了可以量产、可以集成到手机里的芯片。在人脸活体检测（防3D面具攻击）中准确率很高，同时数据处理量减少了96% 。这证明了物理层面的光谱卷积是极其有效的。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git