论文基本信息 (Basic Information)

标题 (Title) Spectral convolutional neural network chip for in-sensor edge computing of incoherent natural light
Adress https://doi.org/10.1038/s41467-024-55558-3
Journal/Time nature communications 202412
Author 清华大学电子工程系

1. 核心思想 (Core Idea)

问题:
电子计算瓶颈: 传统CNN在边缘设备(如手机、IoT)上运行耗能大、延迟高。卷积操作占据了绝大部分算力 。
传统光计算局限: 以前的光神经网络(ONN)通常依赖相干光(激光),这意味着必须把自然场景先录下来,再用激光编码输入,体积大且难以实时处理自然场景 。
传统视觉的“存算分离”瓶颈:普通摄像头只负责拍照片然后把数据传给 GPU 去算。这中间的数据传输消耗了巨大的能量和时间。

解决:

  1. 直接处理自然光(Incoherent Light)。不需要把光转成相干光。利用自然光中携带的丰富光谱信息,直接在传感器端进行处理 。
  2. 滤波器即权重(Filters as Weights)。将卷积核的权重 www 编码进光谱滤波器的透射光谱 t(λ)t(\lambda)t(λ) 中。光透过滤波器被传感器积分的过程,数学上就是一个向量内积运算(卷积的核心)。
  3. 感内计算(In-Sensor Computing)。 计算发生在光子撞击传感器的瞬间。这使得在数据进入电层之前,就已经完成了第一层卷积操作,数据吞吐量减少了 96% 。传统是 Sensor →\rightarrow Memory →\rightarrow GPU/NPU。这里是 Sensor (Compute) →\rightarrow Output。为了解决数据传输的带宽瓶颈。

光谱卷积神经网络(SCNN)
输入: 宽带非相干自然光(Broadband Incoherent Natural Light)。不需要激光,不需要相干光源,就是日常生活中的阳光、环境光 。
输出: 高层视觉任务的结果。例如,在人脸活体检测中输出“真/假脸”,在病理诊断中输出“甲状腺癌/正常"
表现形式:一个集成了大规模光谱滤波阵列的 CMOS 图像传感器芯片。相当于硬件化的卷积层,把透过来的光转换成电信号完成了积分求和。
在这里插入图片描述
传统的ONN需要复杂的相干光路(图1a);而的SCNN(图1b)直接放在自然光下,像普通摄像头一样工作 。在 CMOS 传感器(CIS)前面加了一层光谱滤波器(Spectral filters)。光打进来,经过滤波器再被传感器接收,这个物理过程直接完成了“卷积”运算 。
Fig. 1b (数学映射): 公式 y=f(Wx+b)y = f(Wx + b)y=f(Wx+b)xxx 是输入的光谱强度(Input spectrum)。WWW 是设计的滤波器的透射谱(Transmission spectrum)。关键点: 光通过滤波器,强度变为 W⋅xW \cdot xWx,传感器将不同波长的能量加在一起(积分 ∫\int),这就是数学上的向量内积(Dot Product)。整个过程不需要电,全靠光学物理完成 。

2. 研究背景与动机 (Background and Motivation)

3. 方法论 (Methodology)

整个流程是一个光电混合计算的过程 :光层(OCL): 自然光射入芯片 →\rightarrow 透过在像素上定制的“光谱滤波器”(Spectral Filters) →\rightarrow 滤波器对光谱进行调制(这一步物理上等效于卷积运算) →\rightarrow CIS像素将光强转换为电信号 。
电层(ENL): 经过光层处理后的特征图(Feature Maps)被送入后端的电学神经网络层(ENLs,运行在普通CPU/嵌入式设备上) →\rightarrow 输出分类或分割结果 。

两种制造滤波器的工艺:Fig. 1c: 基于超表面(Metasurface),精度高,可定制性强 。基于颜料(Pigment),就像传统相机的拜耳滤镜一样,可以在 12 英寸晶圆上大规模量产 。

图e:将传感器像素划分为多个 “Super-pixel” (超像素)。每个超像素包含 k×kk \times kk×k 个物理像素,对应 KKK 个卷积核。核心公式 :
vp=∑i=1NIpi=∑i=1N∫λ1λ2xi(λ)wpi(λ)dλ=∑i=1NwkiTxiv_{p}=\sum_{i=1}^{N}I_{pi}=\sum_{i=1}^{N}\int_{\lambda_{1}}^{\lambda_{2}}x_{i}(\lambda)w_{pi}(\lambda)d\lambda=\sum_{i=1}^{N}w_{ki}^{T}x_{i}vp=i=1NIpi=i=1Nλ1λ2xi(λ)wpi(λ)dλ=i=1NwkiTxi
这里,xi(λ)x_i(\lambda)xi(λ) 是输入光谱,wpi(λ)w_{pi}(\lambda)wpi(λ) 是滤波器的光谱响应。积分过程(∫\int)由光电二极管在物理上瞬间完成。

芯片上的每个小方格(Kernel)就是一个卷积核。
在这里插入图片描述
设计逻辑 (Fig. 2a): 使用**基于梯度的拓扑优化(GMTO)**算法来设计超表面的微观结构 。通过梯度下降算法自动设计。
特征分离 (Fig. 2b): 用 PCA 把芯片提取到的特征画在 3D 空间里。通过PCA可视化可以看到,经过设计的光学层处理后,真人的皮肤(Skin)和攻击用的硅胶面具(Silicone)、纸张(Paper)在特征空间上被明显分开了 。这证明了光学层提取了极具判别力的光谱特征。
2e(混淆矩阵)在“图像级(Image-level)”分类上,准确率达到了 100.00%。
在这里插入图片描述
展示了芯片在更难的甲状腺病理诊断任务上的表现。输入是病理切片,经过 OCL(光学层)提取特征图,最后通过简单的电子层(ENLs)输出诊断结果。With OCL,像素级准确率 82.0%,图像级 96.4%。Without OCL 像素级准确率掉到了 60.6%。3c(PCA 可视化)在光谱特征空间里明显区分。

在这里插入图片描述

图四 量产与微型化。

在这里插入图片描述

实现路径:用光刻工艺和颜料(类似传统Bayer滤镜,但也是特殊设计的光谱响应)在12英寸晶圆上实现了量产 。对于边缘计算设备来说至关重要。

4. 实验结果 (Experimental Results)

5. 结论与讨论 (Conclusion & Discussion)

超像素(Super-pixel)的设计权衡:为了实现多通道卷积,在空间上牺牲了一定的分辨率。一个“逻辑像素”(OCU)实际上是由 n×nn \times nn×n 个超像素组成的,每个超像素包含 kkk 个物理像素 。 kkk 越大,光谱通道(卷积核)越多,光谱感知能力越强,但空间分辨率越低 。在实验中发现,对于特定任务(如活体检测),光谱特征比空间纹理更重要,所以这种牺牲是值得的 。

卷积核尺寸 (1×11 \times 11×1 vs n×nn \times nn×n):虽然架构支持 n×nn \times nn×n 的卷积,但在论文展示中,主要使用了 1×11 \times 11×1 卷积(即 n=1n=1n=1)。这意味着我们主要是在利用光谱维度的信息进行特征提取,这类似于在光学端做了一个强力的特征工程(Spectral Feature Engineering),极大简化了后续电层的负担。

无透镜显微 (Lensless Microscopy in Pigment Chip): 在图4e中,使用颜料基芯片进行甲状腺切片诊断时,没有使用显微镜,而是直接把切片贴在摄像头镜头上 。虽然图像是模糊的(Blurry),缺乏空间纹理,但凭借强大的光谱特征,依然达到了 96.46% 的分类准确率 。这有力地证明了光谱信息在特定诊断任务中比空间清晰度更关键。

6. 主要贡献总结 (Summary of Key Contributions)

不仅仅是停留在模拟或笨重的光学平台上,而是做出了可以量产、可以集成到手机里的芯片。在人脸活体检测(防3D面具攻击)中准确率很高,同时数据处理量减少了96% 。这证明了物理层面的光谱卷积是极其有效的。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐