深度学习-Pytorch实现经典VGGNet网络

Alex_StarSky

2007人浏览 · 2024-03-04 12:17:04

Alex_StarSky · 2024-03-04 12:17:04 发布

深度学习-Pytorch实现经典VGGNet网络

深度学习中，经典网络引领一波又一波的技术革命，从LetNet到当前最火的GPT所用的Transformer，它们把AI技术不断推向高潮。2012年AlexNet大放异彩，它把深度学习技术引领第一个高峰，打开人们的视野。

用pytorch构建CNN经典网络模型VGGNet，还可以用数据进行训练模型，得到一个优化的模型。

深度学习算法

深度学习-回顾经典AlexNet网络：山高我为峰-CSDN博客

深度学习-CNN网络改进版LetNet5-CSDN博客

深度学习-回顾CNN经典网络LetNet-CSDN博客

GPT实战系列-如何用自己数据微调ChatGLM2模型训练_pytorch 训练chatglm2 模型-CSDN博客

VGGNet概述

2014年，牛津大学计算机视觉组（Visual Geometry Group）和DeepMind公司一起研发了新的卷积神经网络，并命名为VGGNet。VGGNet是比AlexNet更深的深度卷积神经网络，该模型获得了2014年ILSVRC竞赛的第二名。

网络结构

VGG 的结构与 AlexNet 类似，区别是深度更深，但形式上更加简单。VGG由5层卷积层、3层全连接层、1层softmax输出层构成，层与层之间使用maxpool（最大化池）分开，所有隐藏层的激活单元都采用ReLU函数。
VGG结构图

事实上，作者设计了6种网络结构，以下以常用的VGG16 D为例。

输入图像3通道分辨率：224x224x3

结构：

9层：图像输入后，5个卷积层，3个全连接层，1个输出层；

（1）C1：3x3 —>64个conv 3x3 --> ReLU–>64个conv 3x3–> ReLU --> 输出64个224×224特征图–> MaxPool 2x2 --> 输出 64个112x112；

（2）C2：3x3 —>128个conv 3x3 --> ReLU–>128个conv 3x3–> ReLU --> 输出128个112×112特征图–> MaxPool 2x2 --> 输出 128个56x56；

（3）C3：3x3 —>256个conv 3x3 --> ReLU–>256个conv 3x3–> ReLU --> 256个conv 3x3–> ReLU -->输出256个56×56特征图–> MaxPool 2x2 --> 输出 256个28x28；

（4）C4：3x3 —>512个conv 3x3 --> ReLU–>512个conv 3x3–> ReLU --> 512个conv 3x3–> ReLU -->输出512个28×28特征图–> MaxPool 2x2 --> 输出 512个14x14；

（5）C5：3x3 —>512个conv 3x3 --> ReLU–>512个conv 3x3–> ReLU --> 512个conv 3x3–> ReLU -->输出512个14×14特征图–> MaxPool 2x2 --> 输出 512个7x7；

（6）FC6 ---->7x7x512 展平77512一维向量–>输出4096个1x1–> ReLU --> Dropout；

（7）FC7 ----> 输入1x1x4096，输出1x1x4096–> ReLU --> Dropout

（8）FC8 ----> 输入1x1x4096，输出1x1x1000

（9）输出层—> 输入1x1x1000–>softmax -->输出 1000分类

整个VGGNet 16 D网络包含的参数数量为 138M个参数。

在这里插入图片描述

优势与不足

优势：采用小卷积核conv 3x3，增加卷积子层，网络深度从11层到19层，Maxpool 核缩小为2x2，特征通道更宽，全连接卷积，图像尺寸扩大224x224x3。

Pytorch实现

以下便是使用Pytorch实现的经典网络结构VGGNet16

class VGGNet16(nn.Module):
    def __init__(self, num_classes, grayscale=False): 
        """
        num_classes: 分类的数量
        grayscale：是否为灰度图
        """
        super(VGGNet, self).__init__()

        self.grayscale = grayscale
        self.num_classes = num_classes

        if self.grayscale: # 可以适用单通道和三通道的图像
            in_channels = 1
        else:
            in_channels = 3

        # 卷积神经网络
    	C1 = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        C2 = nn.Sequential(
            nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(128, 128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        C3 = nn.Sequential(
            nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        C4 = nn.Sequential(
            nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        C5 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        
        
        self.features = nn.Sequential(
            C1,
            C2,
            C3,
            C4,
            C5
        )
        # 分类器
        self.classifier = nn.Sequential(
            nn.Linear(7*7*512, 4096),
            nn.ReLU(),
            nn.Dropout(),
            nn.Linear(4096*1*1, 4096),
            nn.ReLU()
            nn.Dropout()
            nn.Linear(4096, 1000)
        )

    def forward(self, x):
        x = self.features(x) # 输出 特征图
        x = torch.flatten(x, 1) # 展平 
        logits = self.classifier(x) # 输出 
        probas = F.softmax(logits, dim=1)
        return logits, probas

大家可以和前面的对照差异，也可以一窥DeepLearning技术的突破点。

在VGGNet 是一大创举，DeepMind团队更闻名的是在围棋开创一片天地，AlphaGo风靡一时，把人工智能推向又一个高潮，CNN网络引领的深度学习蓬勃发展，造就人工智能技术革命的起点。

觉得有用 收藏收藏收藏

点个赞点个赞点个赞

End

深度学习

Caffe笔记：python图像识别与分类_python 怎么识别 caffe-CSDN博客

深度学习-Pytorch同时使用Numpy和Tensors各自特效-CSDN博客

深度学习-Pytorch运算的基本数据类型_pytorch支持的训练数据类型-CSDN博客

深度学习-Pytorch如何保存和加载模型

深度学习-Pytorch如何构建和训练模型-CSDN博客

深度学习-Pytorch数据集构造和分批加载-CSDN博客

Python Faster R-CNN 安装配置记录_attributeerror: has no attribute 'smooth_l1_loss-CSDN博客

经典算法-遗传算法的python实现

经典算法-模拟退火算法的python实现

经典算法-粒子群算法的python实现-CSDN博客

GPT专栏文章：

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

大模型查询工具助手之股票免费查询接口

GPT实战系列-简单聊聊LangChain

GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型，到底做了什么？(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型，到底做了什么？(一)

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

GPT实战系列-Baichuan2等大模型的计算精度与量化

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF

GPT实战系列-探究GPT等大模型的文本生成-CSDN博客

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git