深度学习中的“通道指挥官”：Squeeze-and-Excitation (SE) Block 详解

摘要：SE-Block是一种创新的通道注意力机制，通过Squeeze-Excitation操作自动学习特征通道的重要性权重。其核心包括全局平均池化获取通道信息、全连接层学习通道间关系，最后对特征通道进行加权。该方法以极小的计算开销（仅增加0.26%参数量）显著提升模型性能，如SE-ResNet50在ImageNet上的Top-1错误率降低1.5%。SE-Block证明了注意力机制在特征筛选中的有效

rmysjm

1214人浏览 · 2025-12-29 08:20:45

rmysjm · 2025-12-29 08:20:45 发布

在深度学习的计算机视觉领域，我们一直在追求更深、更宽的网络结构（如 ResNet, DenseNet）。然而，传统的卷积操作（Convolution）大多关注于如何在**空间维度（Spatial Domain）上融合特征，却往往忽略了通道维度（Channel Domain）**之间的相互关系。

2017年，由胡杰等人提出的 SE-Block 改变了这一现状。它通过极小的计算开销，显著提升了模型的准确率，并一举夺得了当年 ImageNet 竞赛的收官冠军。

一、核心思想：通道注意力机制

传统的卷积核在工作时，会默认特征图（Feature Map）的每一个通道都是同等重要的。但实际情况是：

在识别“狗”的任务中，代表“毛发纹理”的通道应该获得更高的权重；
在识别“天空”的任务中，代表“蓝色色彩”的通道更为关键。

SE-Block 的核心逻辑就是：让模型自动学习每个特征通道的重要程度，然后根据这个重要性去“加强有用特征，抑制无用特征”。

二、数学原理

SE-Block 的具体实现分为三个关键步骤：Squeeze（压缩）、Excitation（激励） 和 Scale（加权）。

假设输入特征图为 $U∈RH×W×C\mathbf{U} \in \mathbb{R}^{H \times W \times C}$ 。

1. Squeeze: 全局信息嵌入

由于卷积只在局部感受野内工作，无法利用全局信息。我们使用 全局平均池化 (Global Average Pooling, GAP) 将每个 $\times W$ 的通道压缩成一个实数 $z_c$ ：

$zc=Fsq(uc)=1H×W∑i=1H∑j=1Wuc(i,j)z_c = F_{sq}(\mathbf{u}_c) = \frac{1}{H \times W} \sum_{i=1}^H \sum_{j=1}^W u_c(i, j)$

此时，特征图从 $\times W \times C$ 变成了 $\times 1 \times C$ 的向量，这个向量包含了每个通道的全局统计信息。

2. Excitation: 自适应重新校准

为了捕获通道间的非线性依赖关系，我们使用两个全连接层（FC）和一个 Bottleneck 结构：

$s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))\mathbf{s} = F_{ex}(\mathbf{z}, \mathbf{W}) = \sigma(g(\mathbf{z}, \mathbf{W})) = \sigma(\mathbf{W}_2 \delta(\mathbf{W}_1 \mathbf{z}))$

其中：

$W1\mathbf{W}_1$ 的维度为 $Cr×C\frac{C}{r} \times C$ （降维层，减少计算量）；
$δ\delta$ 是 ReLU 激活函数；
$W2\mathbf{W}_2$ 的维度为 $\times \frac{C}{r}$ （升维层，恢复原通道数）；
$σ\sigma$ 是 Sigmoid 函数，将输出映射到 $(0, 1)$ 之间，得到每个通道的权重系数。

3. Scale: 特征重加权

最后，将学习到的权重 $s_c$ 乘回原来的特征通道上：

$x~c=Fscale(uc,sc)=sc⋅uc\tilde{\mathbf{x}}_c = F_{scale}(\mathbf{u}_c, s_c) = s_c \cdot \mathbf{u}_c$

三、代码实现 (PyTorch)

SE-Block 的迷人之处在于其简洁。以下是使用 PyTorch 实现的代码：

import torch
import torch.nn as nn

class SEBlock(nn.Module):
    def __init__(self, channels, reduction=16):
        super(SEBlock, self).__init__()
        # 1. Squeeze: Global Average Pooling
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        
        # 2. Excitation: FC -> ReLU -> FC -> Sigmoid
        self.fc = nn.Sequential(
            nn.Linear(channels, channels // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channels // reduction, channels, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        # x shape: (Batch, Channel, Height, Width)
        b, c, _, _ = x.size()
        
        # Squeeze
        y = self.avg_pool(x).view(b, c)
        
        # Excitation
        y = self.fc(y).view(b, c, 1, 1)
        
        # Scale: 将权重应用到原图
        return x * y.expand_as(x)

# 测试代码
input_tensor = torch.randn(1, 64, 32, 32) # 假设输入64通道
se = SEBlock(channels=64)
output = se(input_tensor)
print(f"输入形状: {input_tensor.shape}, 输出形状: {output.shape}")

四、应用事例：SE-ResNet

SE-Block 并不是一个独立的网络，而是一个可以“插”在任何现有结构中的模块。最经典的案例就是将其嵌入到 ResNet 中，形成 SE-ResNet。

结构对比

普通 ResNet Block: Input -> Conv -> BN -> ReLU -> Conv -> BN -> (+) -> Output
SE-ResNet Block: Input -> Conv -> BN -> ReLU -> Conv -> BN -> (SE-Block) -> (+) -> Output

实际效果

在 ImageNet 图像分类任务上：

ResNet-50 的 Top-1 错误率为 24.80%。
SE-ResNet-50 的 Top-1 错误率为 23.29%。

代价是什么？
对于 ResNet-50，引入 SE-Block 仅增加了约 0.26% 的参数量和极微小的计算量（GFLOPs），却带来了接近 1.5% 的性能提升。这种“高性价比”使得 SE-Block 至今仍是工业界优化模型的首选方案之一。

五、总结

SE-Block 证明了：并不是只有增加深度或宽度才能提升网络性能。通过巧妙地设计注意力机制，让网络学会“筛选”信息，同样能达到事半功倍的效果。

如果你正在处理图像识别、目标检测等任务，不妨在你的主干网络里尝试加上几个 SE-Block，或许会有意想不到的惊喜！

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git