深度学习-三维卷积神经网络（3DCNN）

weixin_40826634

6447人浏览 · 2022-12-10 21:21:27

weixin_40826634 · 2022-12-10 21:21:27 发布

1. 3DCNN理解
2D卷积仅仅考虑2D图片的空间信息，所以只适用于单张2D图片的视觉理解任务。在处理3D图像或视频时，网络的输入多了一个维度，输入由 $(c, h e i g h t, w i d t h)$ 变为了 $(c, d e pt h, h e i g h t, w i d t h)$ ，其中 $c$ 是通道数， $d e pt h$ 为输入数据的宽度。因此，对该数据进行处理时，就需要卷积也做出相应的变换，由2D卷积变为3D卷积。
在2D卷积的基础上，3D卷积被提出。3D卷积在结构上较2D卷积多了一个维度，2D卷积的尺寸可以表示为 $k_h \times k_w$ ，而3D卷积的尺寸可以表示为 $k_h \times k_w \times k_d$ 。3D卷积的具体计算公式与2D卷积类似，即每次滑动时与 $c$ 个通道、尺寸大小为 $(d e pt h, h e i g h t, w i d t h)$ 的图像做乘加运算，从而得到输出特征图中的一个值，如图所示。
在这里插入图片描述

视频输入的维度： $input_C \times input_T \times input_W \times input_H$ ；
3D卷积核的维度： $input_C$ 个并列的维度为 $kernel_T \times kernel_W \times kernel_H$ 的卷积核；
3D卷积核在 $T, W, H$ 三个方向上移动。