如何下载sklearn数据库中自带的数据集，如乳腺癌数据集（带有标签）

本文介绍了如何通过Python代码下载并保存sklearn中的乳腺癌数据集。首先导入datasets和pandas模块，然后加载乳腺癌数据集，将其转换为DataFrame格式并添加目标列。最后将处理好的数据保存为CSV文件，便于后续分析使用。文章详细注释了代码的每一步操作，特别适合初学者理解pandas数据处理的基本流程。

无名亦有名

195人浏览 · 2025-10-18 11:11:59

无名亦有名 · 2025-10-18 11:11:59 发布

前言

在学习一些有关机器学习的课程时，逻辑回归的实战总是绕不开的，有些课程上的代码是直接调用sklearn中数据库的数据集，我们不能很直观的感受到数据集是什么样的，我们可以通过以下代码去实现数据集的下载，往后除了乳腺癌数据集，像波士顿房价等数据集都能用此代码实现，并且带有数据集标签

代码

博主是代码小白，所以注释较多，方便自己理解

from sklearn import datasets  # 从sklearn库导入数据集模块
import pandas as pd  # 导入pandas库，用于数据处理（别名pd）
# pandas 是 Python 中处理表格数据的核心库，DataFrame 是其核心数据结构（类似 Excel 表格）
breast_cancer = datasets.load_breast_cancer()
# 加载 sklearn 内置的 “乳腺癌威斯康星数据集”，该数据集包含乳腺癌肿瘤的特征数据和对应的诊断标签（良性 / 恶性）
data = pd.DataFrame(data=breast_cancer.data,columns=breast_cancer.feature_names)
# data=breast_cancer.data：指定表格的内容（特征数据，是一个二维数组）
# columns=breast_cancer.feature_names：指定表格的列名（每个特征的名称，如肿瘤半径、纹理、周长等）
data['target'] = breast_cancer.target
# 此时data已经是 DataFrame 对象（表格型数据结构）
# 在此之前的代码中，data = pd.DataFrame(...) 已经明确将 data 定义为 pandas 的 DataFrame（表格）。
# 它不是普通的列表（list），而是一个带有行索引、列名的二维表格结构，支持直接添加 / 修改列。
# 在 pandas 中，对 DataFrame 进行 data['新列名'] = 值 操作时，会自动新增一列，列名是 '新列名'，值会按行对应填充
print(data)  # 打印数据框，查看前几行和后几行数据
data.to_csv('./breast_cancer.csv',index=None)  # 保存为CSV文件
# ./breast_cancer.csv'：保存路径和文件名（./ 表示当前工作目录）
# index=None：表示不保存 DataFrame 的索引（避免生成额外的索引列）
# pandas 库的 DataFrame 类提供了 to_csv() 方法，专门用于将表格数据导出为 CSV 格式（逗号分隔值文件）
# 代码中 data = pd.DataFrame(...) 已经将数据转换为 pandas 的 DataFrame 类型（一种表格型数据结构）。
# DataFrame 内置了一系列数据处理方法，to_csv() 就是其中用于 “导出为 CSV 文件” 的方法。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git