Getting Started

训练方法

方法

全参数训练

部分参数训练

LoRA

QLoRA

指令监督微调

:white_check_mark:

奖励模型训练

DPO 训练

软件依赖

必需项

至少

推荐

python

3.11

3.12

torch

2.7.1

2.7.1

torch-npu(Ascend NPU)

2.7.1

2.7.1

torchvision

0.22.1

0.22.1

transformers

5.0.0

5.0.0

datasets

3.2.0

4.0.0

peft

0.18.1

0.18.1

可选项

至少

推荐

CUDA(NVIDIA GPU)

11.6

12.2

deepspeed

0.18.4

0.18.4

flash-attn(NVIDIA GPU)

2.5.6

2.7.2

如何使用

安装 LLaMA Factory

[!IMPORTANT] 此步骤为必需。

从源码安装

git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .

数据准备

关于数据集文件的格式,请参考 data-preparation/README.md 的内容。你可以使用 HuggingFace / ModelScope 上的数据集或加载本地数据集。

[!NOTE] 使用自定义数据集或自定义数据集格式时,请参照 data-preparation/README.md 进行配置,如有必要,请重新实现自定义数据集的数据处理逻辑,包括对应的converter

您也可以使用 Easy DatasetDataFlowGraphGen 构建用于微调的合成数据。

快速开始

下面的命令展示了对 Qwen3-0.6B 模型使用 FSDP2 进行 全参微调,两行命令等价。

export USE_V1=1
llamafactory-cli sft examples/v1/train_full/train_full_fsdp2.yaml
llamafactory-cli train examples/v1/train_full/train_full_fsdp2.yaml

高级用法请参考 advanced(包括多卡多机微调、分布式、Lora、量化、以及各种加速特性等)。