FuNNet-基于多尺度RGB-T融合的多模态神经网络语义分割

FuNNet-34

迷途老书虫

1443人浏览 · 2022-09-29 20:04:20

迷途老书虫 · 2022-09-29 20:04:20 发布

Overview

Title：Multi-modal neural networks with multi-scale RGB-T fusion for semantic segmentation 基于多尺度RBG-T融合的多模态神经网络语义分割

Time：2020

Journal：Electronics Letters

Majors：semantic segmentation

Link：

Summary

提出了一种新颖的基于深度学习的frgb和热图像语义分割方，用于基于多分辨率补丁处理的多模态融合。
引入了一种新颖的解码器模块来融合由单独的编码器流提取的RGB和热特征。
在合成数据和实际数据上的实验结果证明了与最新方法相比，该方法的效率。

Contributions

(1) 一种新颖的多模态融合神经网络设计，用于执行RGB-热城市场景的语义图像分割；
(2) 一种新颖的解码器块结构，可有效融合颜色和热特征；
(3)一种高效且鲁棒的方法，具有平衡的复杂性性能比；
(4) 对真实世界和合成数据进行详细的实验验证。

Method

FuNNet-34 是基于以下基本方法设计的：
- (i) 两个编码器 - 一个解码器（2E1D）范式；
- (ii) 多分辨率补丁处理概念；
- (iii) Resdiv 模块设计的残差学习和 ResNeXt 概念。

Model

在这里插入图片描述

FuNNet-34 遵循Encoder-Decoder 范式，由:
- (i) 一个编码器流组成，用于处理大小为 WH3 的输入 RGB 图像，称为 RGB Encoder；
- (ii) 用于处理大小为 W*H 的输入热图像的编码器流，称为热编码器；
- (iii) 一个解码器流，用于融合提取的具有多种分辨率的多模态特征，并计算相应的尺寸为 W*H 的语义分割。
- 其中，每个编码器流包含ResNet-34架构的卷积部分和一个Atrous Spatial Pyramid Pooling (ASPP)模块，旨在处理多尺度的对象分割问题。

在这里插入图片描述

解码器流包含：
- (i) 四个级联层；
- (ii) 基于称作Resdiv的新型解码器块结构设计的五个模块；
- (iii) 执行像素分类的Softmax层。将每个编码器提取的aspp特征图进行级联，然后由Resdiv 5进行处理，将RGB编码器提取的conv2 x、conv3 x和conv4 x特征图与热编码器提取的相应特征图进行级联，然后添加到处理较低分辨率的特征图后获得的相应特征图，最后，它们由相应的Resdiv模块进一步处理。Resdiv 1计算尺寸为WHnc的最终特征图，其中nc是softmax层用于计算输出图像分割的类数。

Experiments

dataset:MF dataset\Cityscapes dataset(synthetic dataset)
在这里插入图片描述

Conclusions

FuNNet-34 是基于多分辨率处理设计的，具有两个编码器和一个解码器流。引入了一种新颖的解码器模块 Resdiv 来融合提取的多模态特征。实验表明，所提出的方法使用微调和不太复杂的架构设计优于所有基于深度学习的最先进的方法。

Evaluation

平均准确度 (mAcc)
平均交并比 (mIoU) 指标

Notes

References

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

cover

动物识别系统 python实现+UI

腾讯云开发者社区

Linux下安装MySQL8.0(超详细)

Linux下安装MySQL8.0(超详细)

腾讯云开发者社区

cover

安卓手机如何连接苹果电脑

腾讯云开发者社区

所有评论(0)

查看更多评论

迷途老书虫

已为社区贡献1条内容