如何下载sklearn数据库中自带的数据集,如乳腺癌数据集(带有标签)
本文介绍了如何通过Python代码下载并保存sklearn中的乳腺癌数据集。首先导入datasets和pandas模块,然后加载乳腺癌数据集,将其转换为DataFrame格式并添加目标列。最后将处理好的数据保存为CSV文件,便于后续分析使用。文章详细注释了代码的每一步操作,特别适合初学者理解pandas数据处理的基本流程。
·
前言
在学习一些有关机器学习的课程时,逻辑回归的实战总是绕不开的,有些课程上的代码是直接调用sklearn中数据库的数据集,我们不能很直观的感受到数据集是什么样的,我们可以通过以下代码去实现数据集的下载,往后除了乳腺癌数据集,像波士顿房价等数据集都能用此代码实现,并且带有数据集标签
代码
博主是代码小白,所以注释较多,方便自己理解
from sklearn import datasets # 从sklearn库导入数据集模块
import pandas as pd # 导入pandas库,用于数据处理(别名pd)
# pandas 是 Python 中处理表格数据的核心库,DataFrame 是其核心数据结构(类似 Excel 表格)
breast_cancer = datasets.load_breast_cancer()
# 加载 sklearn 内置的 “乳腺癌威斯康星数据集”,该数据集包含乳腺癌肿瘤的特征数据和对应的诊断标签(良性 / 恶性)
data = pd.DataFrame(data=breast_cancer.data,columns=breast_cancer.feature_names)
# data=breast_cancer.data:指定表格的内容(特征数据,是一个二维数组)
# columns=breast_cancer.feature_names:指定表格的列名(每个特征的名称,如肿瘤半径、纹理、周长等)
data['target'] = breast_cancer.target
# 此时data已经是 DataFrame 对象(表格型数据结构)
# 在此之前的代码中,data = pd.DataFrame(...) 已经明确将 data 定义为 pandas 的 DataFrame(表格)。
# 它不是普通的列表(list),而是一个带有行索引、列名的二维表格结构,支持直接添加 / 修改列。
# 在 pandas 中,对 DataFrame 进行 data['新列名'] = 值 操作时,会自动新增一列,列名是 '新列名',值会按行对应填充
print(data) # 打印数据框,查看前几行和后几行数据
data.to_csv('./breast_cancer.csv',index=None) # 保存为CSV文件
# ./breast_cancer.csv':保存路径和文件名(./ 表示当前工作目录)
# index=None:表示不保存 DataFrame 的索引(避免生成额外的索引列)
# pandas 库的 DataFrame 类提供了 to_csv() 方法,专门用于将表格数据导出为 CSV 格式(逗号分隔值文件)
# 代码中 data = pd.DataFrame(...) 已经将数据转换为 pandas 的 DataFrame 类型(一种表格型数据结构)。
# DataFrame 内置了一系列数据处理方法,to_csv() 就是其中用于 “导出为 CSV 文件” 的方法。
更多推荐
所有评论(0)