unsloth数据集修改

格式：优先用CSV/JSON（新手最易操作），也支持 JSONL/TXT；内容：至少包含「输入（问题 / 指令）」和「输出（回答 / 结果）」两列 / 字段；示例结构（以 CSV 为例）：questionanswer介绍一下 UnslothUnsloth 是一款低显存的 LLM 微调框架...如何降低 LLM 微调显存？可以使用 Unsloth 的 4bit 量化 + LoRA 优化...下面以本

weixin_73527660

420人浏览 · 2026-01-08 17:28:46

weixin_73527660 · 2026-01-08 17:28:46 发布

一、先明确：自定义数据集的核心要求

Unsloth 微调对数据集的要求很简单：

格式：优先用 CSV/JSON（新手最易操作），也支持 JSONL/TXT；
内容：至少包含「输入（问题 / 指令）」和「输出（回答 / 结果）」两列 / 字段；
示例结构（以 CSV 为例）：

question	answer
介绍一下 Unsloth	Unsloth 是一款低显存的 LLM 微调框架...
如何降低 LLM 微调显存？	可以使用 Unsloth 的 4bit 量化 + LoRA 优化...

二、自定义数据集加载（完整可运行代码）

下面以本地 CSV 文件为例（最通用），同时提供 JSON 格式的加载方式，你按需选择：

步骤 1：准备本地数据集文件

先在本地创建一个 custom_data.csv 文件（用 Excel / 记事本都能做），内容如下（参考格式）：

question,answer
介绍一下Unsloth,Unsloth是一款专为LLM微调设计的开源框架，核心优势是低显存、高速度，适配消费级GPU。
Unsloth支持哪些模型,Unsloth支持Llama 2/3、Mistral、Phi-3、Gemma等主流开源LLM。
如何用Unsloth微调7B模型,首先安装Unsloth，加载4bit量化模型，配置LoRA，用自定义数据集训练即可。

步骤 2：加载并预处理自定义数据集（核心代码）

from unsloth import FastLanguageModel
import torch
from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset  # 核心：加载数据集的库

# ======================
# 核心修改：加载自定义CSV数据集
# ======================
# 方式1：加载本地CSV文件（推荐，新手首选）
# 替换这里的 "custom_data.csv" 为你的数据集文件路径（比如 "D:/data/my_data.csv"）
dataset = load_dataset(
    "csv",                # 数据集格式：csv/json/txt
    data_files="custom_data.csv",  # 你的数据集文件路径
    split="train"         # 数据集划分（只有训练集就写train）
)

# 方式2：如果你的数据集是JSON格式（示例）
# dataset = load_dataset(
#     "json",
#     data_files="custom_data.json",
#     split="train"
# )

# ======================
# 核心修改：格式化Prompt（适配你的字段名）
# ======================
# 关键：把 "question" 和 "answer" 替换成你数据集的列名！
# 比如你的数据集列名是 "instruction" 和 "output"，就改成 sample['instruction']
def format_prompt(sample):
    # 适配Llama 3的官方Prompt格式（通用，大部分模型都兼容）
    return f"""<|begin_of_text|><|start_header_id|>user<|end_header_id|>

{sample['question']}  # 替换为你的输入字段名（比如 instruction/query）

<|start_header_id|>assistant<|end_header_id|>

{sample['answer']}  # 替换为你的输出字段名（比如 output/response）
<|end_of_text|>"""

# 对数据集应用格式化函数，生成模型能识别的文本
dataset = dataset.map(lambda x: {"text": format_prompt(x)})

# ======================
# 后续是模型加载和训练（无需改，仅作完整示例）
# ======================
# 加载模型（保持不变）
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-bnb-4bit",
    max_seq_length = 2048,
    dtype = torch.float16,
    load_in_4bit = True,
)

# 配置LoRA（保持不变）
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = "unsloth",
    random_state = 42,
)

# 训练器配置（仅需调整batch_size适配显存）
trainer = SFTTrainer(
    model = model,
    train_dataset = dataset,  # 用你的自定义数据集
    dataset_text_field = "text",  # 固定值：对应上面格式化后的 "text" 字段
    max_seq_length = 2048,
    tokenizer = tokenizer,
    args = TrainingArguments(
        per_device_train_batch_size = 1,  # 8GB显存改1，16GB改2
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 60,
        learning_rate = 2e-4,
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        logging_steps = 1,
        output_dir = "unsloth-custom-finetuned",
        optim = "adamw_8bit",
    ),
)

# 开始训练
trainer.train()

三、关键修改说明（你只需要改这 3 处）

数据集文件路径：把 data_files="custom_data.csv" 改成你的文件路径（比如 Windows："D:/AI/data/my_qa_data.csv"，Linux/Mac："/home/user/data/my_qa_data.csv"）；
字段名替换：如果你的数据集列名不是 question/answer，而是 instruction/output（Alpaca 格式）、query/response（对话格式），就把 sample['question'] 和 sample['answer'] 换成对应的列名；
Prompt 格式（可选）：如果微调的是 Llama 2/Mistral/Phi-3，可保留当前格式；如果是其他模型，可替换成对应的 Prompt 格式（比如 ChatGLM 的格式）。

四、常见问题解决

数据集编码错误：如果加载 CSV 时提示编码错误，添加 encoding="utf-8"：

dataset = load_dataset("csv", data_files="custom_data.csv", split="train", encoding="utf-8")

字段名错误：如果提示 KeyError: 'question'，说明你写的字段名和数据集实际列名不一致，核对 Excel/CSV 里的列名；
数据集太大：先取 10% 数据测试，避免训练时间过长：
```
dataset = dataset.select(range(100))  # 只取前100条数据测试
```

总结

自定义数据集优先用CSV 格式，只需包含「输入字段」和「输出字段」两列；
核心修改点：替换数据集文件路径、替换字段名、适配 Prompt 格式；
测试阶段先取少量数据（比如前 100 条）跑通代码，再用全量数据训练。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git