大模型监督微调的含义

监督微调(Supervised Fine-Tuning,简称 SFT)是大语言模型(LLM)训练流程中的关键一步。它的核心作用是将一个知识渊博但“不懂人话”的基座模型(Base Model),改造成一个能听懂指令、流畅对话的指令模型(Instruct Model)。

如果把大模型的训练比作培养一个学生:

  • 预训练(Pre-training):相当于让学生博览群书,学习海量的知识和语言规则,成为一个“书呆子”
  • 监督微调(SFT):则相当于请一位老师,拿着一本本写有“问题”和“标准答案”的练习册,手把手教这个学生如何根据问题给出正确的回答
大模型监督微调的含义

为什么需要SFT?

经过预训练的基座模型,其核心能力是“预测下一个词”,而不是“回答问题”
  • 基座模型的表现:如果你问它“中国的首都是哪里?”,它可能会续写成“…这个问题在地理考试中很常见,日本的首都是东京…”,因为它只是在根据上文续写文本
  • SFT的目标:通过SFT,我们教会模型理解“这是一个问题,你需要直接给出答案”的模式。经过SFT后,模型就能正确地回答“中国的首都是北京。”

SFT是如何工作的?

SFT的过程是一个典型的监督学习流程,主要包含三个要素:
  1. 数据准备
    准备大量高质量的“指令-回答”配对数据(Instruction-Response Pairs)。这些数据通常由人工精心编写,格式如下:
    • 输入 (Prompt):“请把‘今天天气真好’翻译成英文。”
    • 输出 (Response):“The weather is very good today.”
  2. 模型训练
    将这些配对数据输入到预训练好的基座模型中。模型会尝试根据指令生成回答,然后将其与标准答案进行比较,计算两者之间的差异(即损失,通常使用交叉熵损失函数)
  3. 参数更新
    通过反向传播算法,根据计算出的损失来调整模型内部的参数,目标是让模型下一次的回答更接近标准答案

SFT与其他技术的区别

为了更清晰地理解SFT,可以将其与几个相关概念进行对比:

表格

对比维度监督微调 (SFT)预训练 (Pre-training)人类反馈强化学习 (RLHF)
核心目标教会模型遵循指令学习通用知识和语言规律让模型输出更符合人类偏好(有用、无害)
训练数据高质量的“指令-回答”对海量的、无标注的文本人类对多个模型回答的偏好排序
学习方式监督学习 (有标准答案)自监督学习 (预测下一个词)强化学习 (根据奖励信号优化)

SFT的演进与挑战

SFT是连接通用大模型与行业应用的桥梁,但它也面临着一些挑战和发展:
  • 数据是关键:SFT的效果高度依赖于数据的质量而非数量。研究表明,少量(如1万条)高质量、多样化的样本,其效果可能优于大量低质量数据
  • 作为RLHF的基础:在更先进的训练流程中,SFT通常是第一步。它先让模型具备基础的指令遵循能力,然后在此基础上进行RLHF,进一步优化模型的回答质量,使其更符合人类的价值观和偏好
  • 高效微调方法:全参数SFT计算成本高昂。因此,像 LoRA 这样的参数高效微调(PEFT)方法应运而生,它只训练模型中一小部分新增的参数,在保证效果的同时大幅降低了资源消耗
© 版权声明

相关文章

暂无评论

none
暂无评论...