1. 图像处理理论和应用-深度学习笔记

全连接层中每个神经元与上一层所有神经元相连。公式：其中( W )：权重矩阵( b )：偏置向量( x )：输入向量( y )：输出向量多通道输入 → 每个卷积核对每个通道单独卷积 → 结果求和 → 输出一个特征图。GAN = 生成器（造假） + 判别器（识假）通过对抗训练，让模型学会**“创造真实感数据”**。

Maxwell_li1

774人浏览 · 2025-11-20 19:23:59

Maxwell_li1 · 2025-11-20 19:23:59 发布

🧠 1. 图像处理理论和应用-深度学习笔记

主题：从卷积神经网络（CNN）到生成对抗网络（GAN）

时间：2025年11月25日

一、全连接层（Fully Connected Layer）

🌟 定义

全连接层中每个神经元与上一层所有神经元相连。

公式：

其中

( W )：权重矩阵
( b )：偏置向量
( x )：输入向量
( y )：输出向量

💡 特点

特性	说明
完全连接	每个输入都连接到每个输出
参数量大	参数数 = 输入节点数 × 输出节点数
常用于	网络末端（分类阶段）
缺点	参数爆炸、训练慢、容易过拟合

🧮 例子

输入为 1024 维，输出为 512 维：
在这里插入图片描述

⚠️ 层数太多会“算不动”的原因

参数过多 → 内存与计算资源爆炸。
梯度消失或爆炸 → 层数过深后误差无法传回。
优化困难 → 收敛慢、容易陷入局部最优。

因此，全连接层通常只在网络最后几层使用。

二、卷积层（Convolutional Layer）

💡 核心作用

自动从图像中提取局部特征（如边缘、纹理、角点）。

⚙️ 关键思想

名称	含义
局部感知	每个神经元只看图像的一小块区域
参数共享	同一个卷积核在整张图像上滑动，使用相同权重
空间结构保留	不打乱图像的空间关系

🧮 卷积计算过程

输入图像：
在这里插入图片描述

卷积核：
在这里插入图片描述

输出（滑动计算）：
在这里插入图片描述

卷积核不断滑动，得到新的特征图（Feature Map）。

🎯 特征图的意义

每张特征图代表卷积核在图像上“看到”的某种特征的分布。

一些核专门检测边缘
一些核检测角点
多个核一起提取复杂结构

三、多通道卷积（Multi-channel Convolution）

💡 图像通道

灰度图：1 通道
彩色图：3 通道（R/G/B）

⚙️ 卷积核结构

若输入是 3 通道，卷积核为 (3×3×3)。

每个卷积核包含三个二维权重层（对应 RGB），
计算过程：
在这里插入图片描述

输出为 1 个特征图。

如果有 64 个卷积核，则输出为 64 个特征图。

🧠 总结

多通道输入 → 每个卷积核对每个通道单独卷积 → 结果求和 → 输出一个特征图。

四、Haar 特征与 AdaBoost

💡 Haar 特征

由黑白矩形模板定义：
在这里插入图片描述

通过在不同位置、不同大小滑动模板，得到 Haar 特征集合。

常见模板类型：

Type-2-x：左右黑白
Type-2-y：上下黑白
Type-3-x：白黑白
Type-4：四格交错

⚙️ 积分图（Integral Image）

用于快速计算任意矩形区域的像素和：
在这里插入图片描述

只需 4 次加减，避免重复相加，大幅加速 Haar 特征计算。

🧠 AdaBoost 的作用

从成千上万个 Haar 特征中：

选择最有用的特征；
组合多个“弱分类器”形成“强分类器”；
用于实时人脸检测（Viola–Jones 算法）。

五、HOG + SVM 与 Haar + AdaBoost 的对比

方法	特征类型	分类器	优点	缺点
HOG + SVM	梯度方向分布	支持向量机	精度高，对光照鲁棒	计算慢
Haar + AdaBoost	亮度差	弱分类器组合	实时性好	对姿态变化敏感

六、积分图的本质

积分图的优势在于减少重复相加
从 O(n²) 降为 O(1)，
使得数万次区域求和在毫秒内完成，实现实时检测。

七、生成对抗网络（GAN）

💡 结构

由两部分组成：

生成器 G：从随机噪声生成假样本；
判别器 D：判断样本是真是假。

🎮 对抗过程

D 学会识别真假；
G 学会以假乱真；
两者互相博弈，最终 G 生成的样本以假乱真。

⚙️ 损失函数

在这里插入图片描述

🧠 理解比喻

G 是“造假者”，D 是“警察”。
两者互相较量，越打越强，直到假币真假难辨。

📊 GAN 的常见变种

模型	特点	应用
DCGAN	卷积版 GAN	图像生成
CGAN	有条件输入	类别控制
CycleGAN	不需配对样本	图像风格转换
StyleGAN	控制生成风格	逼真人物生成
Pix2Pix	图像到图像转换	黑白→彩色、线稿→实图

✨ 总结

GAN = 生成器（造假） + 判别器（识假）
通过对抗训练，让模型学会**“创造真实感数据”**。

八、核心知识总览表

概念	关键思想	优势	缺点
全连接层	每节点全连	表达力强	参数爆炸
卷积层	局部感知、参数共享	参数少、特征提取好	不处理非局部关系
积分图	快速矩形求和	极快	仅适用于矩形区域
Haar 特征	亮度差	计算简单	表达能力有限
AdaBoost	特征筛选 + 弱分类组合	实时检测	对光照敏感
GAN	对抗训练	数据生成能力强	训练不稳定

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git