从零到一：如何用segmentation_models.pytorch打造你的第一个图像分割项目

本文详细介绍了如何使用segmentation_models.pytorch（SMP）库从零开始构建图像分割项目。通过环境配置、数据预处理、模型训练到结果可视化的完整流程，帮助初学者快速掌握这一计算机视觉核心技术。文章特别强调了SMP库的预训练模型优势，适合医疗影像、自动驾驶等应用场景。

mango

132人浏览 · 2026-02-08 18:51:10

mango · 2026-02-08 18:51:10 发布

从零到一：如何用segmentation_models.pytorch打造你的第一个图像分割项目

图像分割作为计算机视觉领域的核心技术之一，正在医疗影像、自动驾驶、工业质检等场景中发挥越来越重要的作用。对于刚接触这个领域的新手来说，如何快速搭建一个可用的图像分割模型往往令人望而生畏。幸运的是，segmentation_models.pytorch（简称SMP）这个开源库将复杂的技术细节封装成简洁的API，让初学者也能在几行代码内构建专业级的分割模型。

1. 环境准备与基础配置

在开始项目之前，我们需要搭建一个稳定的开发环境。推荐使用Anaconda创建独立的Python环境，避免依赖冲突：

conda create -n smp_env python=3.8
conda activate smp_env
pip install torch torchvision
pip install segmentation-models-pytorch

安装完成后，可以通过简单的导入测试验证是否成功：

import segmentation_models_pytorch as smp
print(smp.__version__)  # 应输出当前版本号

SMP库的核心优势在于其丰富的预训练模型支持。它提供了9种主流分割架构和超过100种编码器选择，全部支持ImageNet预训练权重。这种"模型即服务"的设计理念，让开发者可以像搭积木一样自由组合不同组件：

model = smp.Unet(
    encoder_name="resnet34",  # 选择ResNet34作为编码器
    encoder_weights="imagenet",  # 使用ImageNet预训练权重
    in_channels=3,  # 输入通道数(RGB图像为3)
    classes=1,  # 输出类别数(二分类设为1)
    activation="sigmoid"  # 输出层激活函数
)

提示：初次运行时会自动下载预训练权重，建议保持网络畅通。国内用户可通过配置镜像源加速下载。

2. 数据准备与预处理

高质量的数据处理流程往往比模型选择更重要。SMP提供了与编码器配套的预处理函数，确保输入数据与预训练权重要求的分布一致：

from segmentation_models_pytorch.encoders import get_preprocessing_fn

preprocess = get_preprocessing_fn("resnet34", pretrained="imagenet")

典型的图像分割数据集应包含原始图像和对应的掩码(mask)。建议使用PyTorch的Dataset类组织数据：

from torch.utils.data import Dataset
import cv2
import numpy as np

class SegmentationDataset(Dataset):
    def __init__(self, image_paths, mask_paths, transform=None):
        self.image_paths = image_paths
        self.mask_paths = mask_paths
        self.transform = transform
        
    def __len__(self):
        return len(self.image_paths)
    
    def __getitem__(self, idx):
        image = cv2.imread(self.image_paths[idx])
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        mask = cv2.imread(self.mask_paths[idx], 0)
        
        if self.transform:
            augmented = self.transform(image=image, mask=mask)
            image = augmented["image"]
            mask = augmented["mask"]
            
        image = preprocess(image)  # 应用预处理
        mask = mask.astype("float32") / 255.0  # 归一化
        
        return image, mask

数据增强是提升模型泛化能力的关键。推荐使用albumentations库实现高效的图像变换：

import albumentations as A

train_transform = A.Compose([
    A.RandomRotate90(),
    A.Flip(),
    A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2),
    A.GaussNoise(var_limit=(0, 0.05)),
    A.Blur(blur_limit=3)
])

3. 模型训练与调优技巧

构建好数据管道后，我们需要设计完整的训练流程。以下是一个典型的训练循环实现：

import torch
import torch.optim as optim
from torch.utils.data import DataLoader

# 初始化模型、优化器和损失函数
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-4)
criterion = smp.losses.DiceLoss(mode="binary")

# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
valid_loader = DataLoader(valid_dataset, batch_size=4, shuffle=False)

def train_epoch(model, loader, optimizer, criterion):
    model.train()
    total_loss = 0
    
    for images, masks in loader:
        images = images.to(device).float()
        masks = masks.to(device).float()
        
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, masks)
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
    
    return total_loss / len(loader)

SMP提供了多种专用损失函数，针对不同任务可以选择：

损失函数	适用场景	特点
DiceLoss	医学图像	对类别不平衡数据鲁棒
JaccardLoss	小目标检测	优化IoU指标
FocalLoss	困难样本	聚焦难分类样本
LovaszLoss	多类别	直接优化IoU的替代函数

学习率调度和早停策略能有效提升训练稳定性：

from torch.optim.lr_scheduler import ReduceLROnPlateau

scheduler = ReduceLROnPlateau(optimizer, mode="min", factor=0.1, patience=3)
early_stopping = {"patience": 5, "min_delta": 0.01, "best_loss": float("inf")}

4. 模型评估与结果可视化

训练完成后，我们需要量化评估模型性能。SMP内置了常用的评估指标：

from segmentation_models_pytorch import metrics

def evaluate(model, loader):
    model.eval()
    iou_scores = []
    
    with torch.no_grad():
        for images, masks in loader:
            images = images.to(device)
            masks = masks.to(device)
            
            outputs = model(images)
            preds = torch.sigmoid(outputs) > 0.5
            
            iou = metrics.iou_score(preds, masks)
            iou_scores.append(iou.item())
    
    return np.mean(iou_scores)

可视化是理解模型行为的有效手段。以下代码展示了如何对比预测结果与真实标注：

import matplotlib.pyplot as plt

def plot_sample(image, mask, pred):
    plt.figure(figsize=(15, 5))
    
    plt.subplot(1, 3, 1)
    plt.imshow(image)
    plt.title("Input Image")
    
    plt.subplot(1, 3, 2)
    plt.imshow(mask, cmap="gray")
    plt.title("Ground Truth")
    
    plt.subplot(1, 3, 3)
    plt.imshow(pred > 0.5, cmap="gray")  # 应用阈值
    plt.title("Prediction")
    
    plt.show()

# 获取测试样本
sample_img, sample_mask = valid_dataset[0]
with torch.no_grad():
    pred = model(torch.tensor(sample_img).unsqueeze(0).to(device))
    pred = torch.sigmoid(pred).cpu().numpy()[0][0]

plot_sample(sample_img.transpose(1, 2, 0), sample_mask, pred)

对于生产环境部署，建议将模型转换为TorchScript格式：

traced_model = torch.jit.trace(model, torch.rand(1, 3, 256, 256).to(device))
torch.jit.save(traced_model, "unet_resnet34.pt")

在实际项目中，我发现合理选择编码器对性能影响显著。经过多次实验对比，resnet34在精度和速度之间提供了很好的平衡，而efficientnet-b4则在资源受限环境下表现优异。数据增强策略也需要根据具体场景调整——医疗图像通常需要更强的几何变换，而自然场景图像则更受益于色彩空间变换。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git