LLM
指令微调配方:SFT/RLHF 的工程化取舍
2026-01-26
背景
指令微调需要在成本、稳定性与收益之间做权衡,尤其在业务快速迭代场景中。
实践要点
- 先用 SFT 建立稳定基线,再评估是否需要 RLHF。
- 对齐目标用可解释的偏好数据集驱动,而非盲目堆数据。
- 把评测与回归纳入流水线,避免“线上才发现”。
小结
工程化的关键不是模型更大,而是反馈闭环更快、更可控。
LLM
2026-01-26
指令微调需要在成本、稳定性与收益之间做权衡,尤其在业务快速迭代场景中。
工程化的关键不是模型更大,而是反馈闭环更快、更可控。