大模型微调实战：用LoRA高效优化你的行业模型

说实话，我第一次尝试微调大模型的时候，心态是有点崩的。7B的模型参数全量微调，单卡A100（80G）都跑得满头大汗，更别提我那可怜的几块消费级显卡了。后来接触到LoRA，才感觉打开了新世界的大门。这玩意儿的核心思想其实很朴素：预训练模型已经学得够好了，我们没必要去动它那几千亿的参数，只需要在它旁边挂上几个“小插件”（低秩矩阵），专门去学我们行业的数据就行。

今天，我就用一次真实的实战经历，带你走一遍完整的LoRA微调流程。目标是用中文医疗问答数据，微调一个LLaMA-2-7B模型，让它能像个靠谱的“小医生”一样回答问题。整个过程我会尽量详细，包括那些让我踩过坑的地方。

1. 环境准备：别让基础配置拖后腿

首先，你得有个能跑模型的环境。我自己的配置是：Ubuntu 20.04 + Python 3.10 + CUDA 11.8 + 一张RTX 4090（24G显存）。理论上12G显存也能跑7B模型的LoRA微调，但batch size得调小点。

依赖库方面，推荐用 transformers、peft、bitsandbytes 和 trl 这套组合拳。PEFT（Parameter-Efficient Fine-Tuning）是Hugging Face官方维护的库，LoRA、Prefix Tuning等主流高效微调方法都集成在里面了。

# 创建虚拟环境
python3 -m venv lora_env
source lora_env/bin/activate

# 安装核心依赖
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers peft bitsandbytes trl accelerate datasets
pip install sentencepiece  # LLaMA系列tokenizer需要

踩坑提示： bitsandbytes在Windows上兼容性不太好，如果你是Windows用户，强烈建议用WSL2或者直接上Linux。另外，torch版本一定要和CUDA版本对应好，否则后面加载模型时会报“CUDA error”之类的错误。

2. 数据准备：从“乱糟糟”到“规规矩矩”

我用的是开源的中文医疗问答数据集 huatuo_encyclopedia_qa。原始数据是JSON格式，长这样：

{"question": "高血压患者可以吃鸡蛋吗？", "answer": "高血压患者可以适量食用鸡蛋，但建议每天不超过一个..."}

但LLaMA-2的对话格式有特定要求，我们需要把它转成 instruction + input + output 的结构。这里我写了个简单的脚本做预处理：

import json
from datasets import Dataset

def format_medical_qa(example):
    return {
        "instruction": "请根据医学知识回答以下问题。",
        "input": example["question"],
        "output": example["answer"]
    }

# 读取原始数据
with open("huatuo_qa.json", "r", encoding="utf-8") as f:
    raw_data = json.load(f)

# 格式化并转为Hugging Face Dataset
formatted_data = [format_medical_qa(item) for item in raw_data]
dataset = Dataset.from_list(formatted_data)
dataset.save_to_disk("medical_qa_formatted")

踩坑提示： 数据质量直接影响微调效果。我一开始没做清洗，结果模型学会了在回答里带“【医生建议】”这种冗余前缀。建议至少做两步：1）去掉空问题和超长回答（超过512 token的截断）；2）统一标点符号（全角半角混用会让分词器崩溃）。

3. 模型加载：4-bit量化是显存救星

LLaMA-2-7B原始权重大约13.5GB，加载到显存里需要30GB+。但我只有24G显存，怎么办？上4-bit量化！用 bitsandbytes 的NF4量化，显存占用直接降到6-8GB，效果损失却很小。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

# 4-bit量化配置
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True
)

# 加载模型和tokenizer
model_name = "meta-llama/Llama-2-7b-chat-hf"  # 或者用国内镜像
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # LLaMA没有pad token，用eos代替

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

这里有个小技巧：device_map="auto" 会自动把模型的不同层分配到不同设备上（比如部分在GPU，部分在CPU），如果显存吃紧，它甚至能把部分层放到系统内存里。当然，这会牺牲一些速度。

4. LoRA配置：关键参数怎么调？

LoRA的核心参数就几个：r（秩）、alpha（缩放因子）、target_modules（目标模块）。我个人的经验是：

r=8：大部分任务够用了，想更精细可以调到16，但显存占用会翻倍。
alpha=16：通常设为r的2倍，控制LoRA更新的缩放比例。
target_modules：LLaMA的注意力层有 q_proj, v_proj, k_proj, o_proj，我一般只调 q_proj 和 v_proj，效果和调全部差不多，但省显存。

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj"],  # 只调query和value
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# 包装模型
peft_model = get_peft_model(model, lora_config)
peft_model.print_trainable_parameters()  # 输出可训练参数数量

运行 print_trainable_parameters() 后，你会看到类似这样的输出：trainable params: 4,194,304 || all params: 6,742,609,920 || trainable%: 0.0622。没错，只动了0.06%的参数，这就是LoRA高效的地方。

5. 训练：从“模型懵圈”到“对答如流”

训练过程用 trl 库的 SFTTrainer（Supervised Fine-Tuning Trainer）最方便。它内置了数据打包、梯度累积等功能，省去很多手动编码的麻烦。

from trl import SFTTrainer
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./lora_medical_output",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,  # 相当于batch_size=16
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_steps=10,
    save_steps=200,
    fp16=True,  # 半精度训练，省显存
    optim="paged_adamw_8bit",  # 8-bit优化器，进一步省显存
)

trainer = SFTTrainer(
    model=peft_model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    max_seq_length=512,  # 最大序列长度，根据显存调整
    dataset_text_field="instruction",  # 使用instruction字段
    packing=True,  # 把多个短样本拼成一个长序列，提升效率
)
trainer.train()

实战经验： 训练时监控显存使用很关键。我跑的时候，batch_size=4 + gradient_accumulation_steps=4 刚好占满23G显存。如果显存溢出，可以尝试：1）降低 max_seq_length 到256；2）关闭 packing；3）用 gradient_checkpointing=True 以计算换显存。

6. 推理与模型合并：把“插件”装回模型

训练结束后，LoRA权重是单独保存的（只有几MB）。推理时有两种选择：

方案一：动态加载LoRA权重（推荐）

from peft import PeftModel

# 加载基础模型（量化版）
base_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto"
)

# 加载LoRA权重
peft_model = PeftModel.from_pretrained(base_model, "./lora_medical_output/checkpoint-600")
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 推理
inputs = tokenizer("请根据医学知识回答以下问题：高血压患者可以吃鸡蛋吗？", return_tensors="pt").to("cuda")
outputs = peft_model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

方案二：合并权重（适合部署）

如果你想把LoRA权重永久合并到原模型里，可以这样做：

merged_model = peft_model.merge_and_unload()
merged_model.save_pretrained("./merged_medical_model")
tokenizer.save_pretrained("./merged_medical_model")

合并后的模型体积和原模型一样大（13GB），但推理时不再依赖PEFT库。不过说实话，我更喜欢方案一，因为可以随时切换不同的LoRA权重（比如医疗版、法律版），一个基础模型就能应对多个场景。

7. 效果验证：它真的学会了吗？

我拿几个测试问题试了试：

# 测试问题1
输入：感冒了应该吃什么药？
输出：普通感冒通常由病毒引起，建议多休息、多喝水。如果症状严重，可以服用对乙酰氨基酚缓解发热和疼痛。但不要滥用抗生素，因为抗生素对病毒无效。

# 测试问题2（故意刁难）
输入：用激光治疗近视有什么风险？
输出：激光近视手术（如LASIK）可能的风险包括干眼症、夜间眩光、屈光回退等。术前需进行详细检查，排除圆锥角膜等禁忌症。建议到正规三甲医院眼科就诊。

效果出乎意料地好！回答不仅专业，而且语气很谨慎，没有出现“包治百病”这种不靠谱的说法。相比原始LLaMA-2，它在医疗领域的知识明显更准确了。