人类反馈对齐

人类反馈对齐(Human Alignment)简单来说，就是通过各种技术手段，让大模型的输出符合人类的价值观、偏好和意图。

如果说“底座大模型”是一个博学但不懂规矩的“天才”，那么“人类反馈对齐”就是教它如何礼貌、安全、准确地与人类沟通的“职场培训”。目前，行业内最主流的对齐方法是基于人类反馈的强化学习（RLHF），此外还有全监督微调(SFT)和推理时对齐等多种路径。

RLHF是目前让ChatGPT、Claude等顶尖模型变得“善解人意”和“安全无害”的核心技术。它的训练流程主要包含三大步骤：

监督微调（SFT）：
这是前置准备步骤。人类标注员会针对各种指令（Prompt）编写高质量的参考回答，然后用这些数据对预训练好的底座模型进行初步的微调，让它学会基本的问答格式。
构建奖励模型（Reward Model, RM）：
让模型针对同一个问题生成多个不同的回答，然后由人类标注员对这些回答进行排序（比如 A 回答比 B 回答更好）。利用这些带有偏好的排序数据，训练出一个独立的“奖励模型”。这个模型就像一个“打分器”，能够自动给模型的输出打出高低分。
强化学习微调（PPO）：
将上一步训练好的奖励模型作为“裁判”。大模型生成回答后，奖励模型会给出分数（奖励信号）。通过 PPO（近端策略优化）等强化学习算法，大模型会根据分数不断调整自己的生成策略，最终目标是尽可能多地获得高分，从而让输出更符合人类的偏好。

除了标准的 RLHF，为了平衡训练成本、稳定性和效果，业界还发展出了其他对齐方法：

全监督微调（SFT）：
这类方法只进行 RLHF 的第一步，或者引入负反馈数据进行训练（比如DPO算法）。相比RLHF，它训练效率更高、更稳定，但因为主要依靠模仿学习，泛化性和对齐上限往往不如RLHF。
推理时对齐（Inference-Time Alignment）：
在模型生成答案的过程中或生成后，引入外部工具、自我评估或其他模型来进行打分和筛选，从而在不改变模型本身参数的情况下实现价值观对齐。
新兴的标量反馈对齐（如 TGO）：
传统的 RLHF 和 DPO 依赖人类对两个答案进行“二选一”的偏好比较（Pairwise）。而最新的 TGO 等方法，尝试让模型直接从“标量反馈”（比如人类直接给某个答案打 8 分）中学习。这在真实产品场景中非常实用，因为用户往往只会点击、收藏或打分，而不会每次都做 A/B 比较。