LLM

指令微调配方:SFT/RLHF 的工程化取舍

2026-01-26

返回分类页 →

背景

指令微调需要在成本、稳定性与收益之间做权衡,尤其在业务快速迭代场景中。

实践要点

  • 先用 SFT 建立稳定基线,再评估是否需要 RLHF。
  • 对齐目标用可解释的偏好数据集驱动,而非盲目堆数据。
  • 把评测与回归纳入流水线,避免“线上才发现”。

小结

工程化的关键不是模型更大,而是反馈闭环更快、更可控。