技术架构
/
Feb 09, 2026
Step 8 08. RLHF:如何让 AI 更“听话”
<!-- Title: 08. RLHF:如何让 AI 更“听话” -->
<!-- Series: LLM 原理与微调实战 (ID: 8) -->
<!-- Author: admin -->
# RLHF:如何让 AI 更“听话”
## 1. 预训练模型的“野性”
通过海量文本预训练出来的 Base Model(如 LLaMA Base),本质上是一个**文本补全机**。
你问它:“如何做炸弹?”
它可能会补全:“...需要的材料有...”
它不懂伦理,不懂安全,甚至不懂你在提问,它只是在续写。
我们需要 **Alignment (对齐)**。
## 2. RLHF 三步走
ChatGPT 成功的秘诀就是 **RLHF (Reinforcement Learning from Human Feedback)**。
### Step 1: SFT (有监督微调)
人工写好“问题-答案”对。
教模型:当用户提问时,你应该回答,而不是续写;你应该礼貌,而不是攻击。
### Step 2: RM (奖励模型)
让模型对同一个问题生成 4 个答案。
人类标注员进行排序:A > B > D > C。
训练一个 **Reward Model**,让它学会模仿人类的喜好打分。
### Step 3: PPO (强化学习)
让 AI 自己生成答案,Reward Model 给分。
如果分高,就奖励(更新参数);如果分低,就惩罚。
通过 PPO 算法,模型逐渐学会了生成“人类爱看”的回答。
## 3. 宪法 AI (Constitutional AI)
RLHF 需要大量人类标注,太贵了。
Anthropic 提出了 **RLAIF (AI Feedback)**。
给 AI 一部“宪法”(原则:无害、诚实、有用)。
让 AI 自己根据宪法来评估自己的回答,自己修正。
这就是 Claude 模型的训练方式。
## 结语
RLHF 是给 AI 戴上的“紧箍咒”,也是注入的“灵魂”。
它让冷冰冰的概率模型,变成了温文尔雅、价值观正确的智能助手。
但这也是一把双刃剑,过度的对齐可能会导致“对齐税” (Alignment Tax),降低模型的创造力。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径