Liao YongzhiLLM Engineering

LLM

指令微调配方：SFT/RLHF 的工程化取舍

2026-01-26

返回分类页 →

背景

指令微调需要在成本、稳定性与收益之间做权衡，尤其在业务快速迭代场景中。

实践要点

先用 SFT 建立稳定基线，再评估是否需要 RLHF。
对齐目标用可解释的偏好数据集驱动，而非盲目堆数据。
把评测与回归纳入流水线，避免“线上才发现”。

小结

工程化的关键不是模型更大，而是反馈闭环更快、更可控。