顶会热门!Transformer结合UNet做图像分割,效率翻倍!
UNet与Transformer的融合模型正成为医学影像、遥感分割等领域的研究热点。UNet擅长局部特征提取但长程建模不足,Transformer能捕捉全局依赖但计算成本高,二者互补形成高效架构。
UNet凭借其高效的编码器-解码器结构,长期占据医学影像分割、图像修复等领域的核心地位,但在捕捉长距离像素关联、处理大尺寸图像时,易出现特征割裂、分割精度不足的问题;Transformer的长程依赖建模能力恰好能弥补这一短板,却存在局部细节捕捉不精准、计算成本偏高的局限。随着各大会议相关研究的持续突破,Transformer与UNet的深度融合已快速崛起,成为医学影像、遥感分割、语义分割领域的研究新趋势。其中,哈佛团队提出的TransUNet++架构,在肺结节分割中Dice系数达0.92,较传统UNet提升8.7%;国内科研团队研发的UNet-Trans融合模型,在遥感图像分割中效率提升30%,边缘分割精度显著优化;另有一款医学影像融合模型,在视网膜分割任务中,成功解决小目标漏检问题,准确率达99.1%。
这些突破的关键,在于UNet的局部特征提取优势与Transformer的长程关联建模能力形成高效互补,为高精度分割、大尺寸图像处理等任务提供了全新思路。对于深耕该方向的论文er,Transformer注意力嵌入、UNet特征融合优化、轻量化适配等都是极具潜力的选题,我已整理好相关顶会论文及复现代码(部分),想快速上手的同学工种号 沃的顶会 扫码即可免费领取~
CosmoUiT: A Vision Transformer-UNet Hybrid for Fast and Accurate Emulation of 21-cm Maps from the Epoch of Reionization
文章解析
为克服传统宇宙学模拟计算成本高昂、难以批量生成的问题,本文提出CosmoUiT,一种融合Vision Transformer与UNet的新型场级(field-level)神经网络架构,用于以暗物质密度场、晕密度场及再电离参数为输入,高效、准确地模拟三维21-cm信号立方体。该模型利用Transformer的多头自注意力机制建模长程依赖(反映再电离演化),结合UNet卷积结构捕获小尺度结构;通过条件化训练适配不同再电离参数,并在气泡尺寸分布、功率谱及形态特征等多维度验证其高保真度,尤其在大/小尺度上均表现优异。
创新点
基于高精度辐射传输模拟(如21cmFAST)生成带标注的3D训练数据集,包含输入场(δ_cdm, δ_halo)与目标场(x_HI, δT_b)。
设计CosmoUiT架构:底层采用Vision Transformer编码全局上下文,中间嵌入UNet式下采样-上采样路径与跳跃连接以保留空间细节。
将再电离参数(如电离效率ζ、最小晕质量M_min、光子逃逸率f_esc等)编码为条件向量,注入Transformer各层及UNet解码器。
使用L1损失、频谱匹配损失及对抗正则项联合优化,评估指标涵盖PSNR、SSIM、气泡尺寸分布KL散度与功率谱相对误差。
研究方法
基于OpenPilot Supercombo模型与YOLOv8,在真实车载传感器数据流上实施端到端对抗攻击注入与防御部署。
设计目标导向的攻击评估协议:对交通标志识别采用类别误判率,对距离回归采用相对误差增幅(ΔmAP@0.5m)量化危害。
采用控制变量法,对每种防御方法(对抗训练、直方图均衡化、非局部去噪、SimCLR对比学习、DDPM去噪)分别匹配六类攻击进行消融实验。
引入跨场景鲁棒性验证:在晴天/雨天/夜间/低光照等多样化实车视频片段中测试攻击迁移性与防御稳定性。
研究结论
CosmoUiT在x_HI和δT_b两个关键物理场的模拟中均达到与数值模拟高度一致的统计与形态特性,大尺度功率谱误差<5%,小尺度气泡分布KL散度降低>40%(相较CosmoUNet)。
模型具备强外推能力,在未见的再电离参数组合下仍保持稳定性能,验证了条件化设计的有效性。
推理速度较传统模拟加速约10^6倍,单次3D预测仅需毫秒级,满足未来21-cm巡天实时分析与贝叶斯反演需求。

A transformer boosted UNet for smoke segmentation in complex backgrounds in multispectral LandSat imagery
文章解析
针对现有卫星影像烟雾检测方法在复杂背景(如云、霾、雾、光照与地物干扰)下对密度/形态多变、语义稀疏的薄烟检测效果差的问题,本文提出VTrUNet:一种融合虚拟波段构建模块与Transformer增强UNet的烟雾分割模型。模型以Landsat六波段(RGB+NIR+SWIR1+SWIR2)为输入,通过虚拟波段显式建模光谱模式,并利用Transformer的自注意力机制捕获长程上下文特征;实验系统验证了模型架构改进的有效性,并表明其性能显著优于最新相关方法。
创新点
提出VTrUNet新架构,首次将Transformer与UNet深度耦合用于多光谱卫星影像烟雾分割任务。
设计虚拟波段构造模块,自适应融合原始六波段信息以增强光谱判别能力。
实证发现‘增加模型模块数量并不必然提升性能’,挑战了简单堆叠组件的设计直觉。
在统一多光谱输入框架下,同时解决薄烟语义弱、背景混淆强、尺度变化大三大核心挑战。
研究方法
以Landsat六波段(红、绿、蓝、近红外、两个短波红外)遥感影像为输入数据。
引入虚拟波段构造模块,通过可学习光谱变换生成更具判别性的中间特征表示。
构建Transformer增强的UNet主干:在UNet编码器-解码器跳跃连接中嵌入轻量级Transformer块,强化跨区域长程依赖建模。
采用端到端监督训练,以像素级烟雾掩膜为标签,优化分割精度。
开展消融实验与架构对比,系统评估不同UNet变体及Transformer集成策略的有效性。
研究结论
VTrUNet在复杂背景烟雾分割任务上达到当前最优性能,显著优于近期同类方法。
Transformer模块对捕获烟雾的全局上下文(如烟羽延伸结构、与火点/云层的空间关系)具有不可替代作用。
虚拟波段构造比直接拼接原始波段或手工设计指数更能提升模型鲁棒性。
模型性能增益源于模块间协同设计,而非单纯增加参数量或网络深度。

更多推荐
所有评论(0)