人类反馈强化学习

人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback)是一种将人类的主观偏好和价值观融入AI训练过程的技术，旨在让AI的行为和输出更符合人类的期望，变得更加“有用、无害、诚实”。

如果把训练AI比作培养一个学生，那么：

在RLHF出现之前，大型语言模型（LLM）主要通过预测下一个词来学习。这种方式虽然能让模型生成语法通顺的句子，但也存在明显问题：

RLHF的核心作用就是解决这些问题，它通过引入人类反馈作为“奖励信号”，来指导模型优化其行为，使其与人类意图对齐(Alignment)。

RLHF的训练流程通常分为三个关键阶段：

监督微调 (Supervised Fine-Tuning, SFT)
- 目标：教会模型基础的指令遵循能力。
- 过程：准备一批高质量的“问题-理想答案”示例数据，让模型学习如何模仿这些优质回答。经过这一步，模型从一个只会续写的“知识库”，变成了一个能初步理解并回应指令的“对话者”。
奖励模型训练 (Reward Model Training, RM)
- 目标：训练一个能评判答案好坏的“裁判”。
- 过程：让SFT模型对同一个问题生成多个不同的回答。然后，由人类标注员对这些回答进行排序（例如，A比B好，B比C好）。利用这些人类偏好数据，训练一个独立的“奖励模型”。这个模型学会了根据人类的标准，给任何回答打一个分数，分数越高代表越符合人类偏好。
强化学习优化 (Reinforcement Learning Optimization)
- 目标：让模型学会最大化“裁判”的打分。
- 过程：使用强化学习算法（如PPO）来微调SFT模型。在这个阶段，模型会尝试生成回答，然后由上一步训练好的“奖励模型”进行打分。模型的目标就是通过不断调整自己的参数，使得自己生成的回答能获得尽可能高的分数。最终，模型就学会了如何产出更符合人类偏好的内容。

RLHF是ChatGPT等现代对话式AI能力飞跃的关键技术。通过对比可以清晰地看到它的作用：

表格

模型阶段	典型代表	特点	是否使用RLHF
预训练模型	GPT-3	知识渊博但难以控制，输出可能偏离指令，甚至产生有害内容。	❌
对齐后模型	ChatGPT (GPT-3.5)	能更好地理解人类意图，回答更有帮助、更安全、更符合对话格式。	✅