解读 ChatGPT 背后的技术密码:RLHF、IFT、CoT 如何协同打造智能对话体验?

引言:

近期,ChatGPT 横空出世,以其出色的对话能力和知识储备,迅速成为人工智能领域的焦点。其背后究竟隐藏着哪些技术奥秘?本文将深入浅出地解读 ChatGPT 的核心技术,包括 RLHF、IFT、CoT 等,并探讨这些技术如何协同工作,打造出令人惊艳的智能对话体验。

一、 群雄逐鹿:AI 对话代理的现状

ChatGPT 并非横空出世,早在其之前,Meta、Google、DeepMind、Anthropic 等机构就已经推出了各自的语言模型对话代理,例如 BlenderBot、LaMDA、Sparrow、Assistant 等。这些对话代理都致力于实现“指令依从”,即根据用户指令完成任务。

然而,ChatGPT 的成功并非偶然,它在技术路线上有着独特之处。下表对目前主流的 AI 聊天机器人进行了比较:

LaMDABlenderBot 3SparrowChatGPT / InstructGPTAssistant
组织GoogleMetaDeepMindOpenAIAnthropic
能否公开访问能否有限
大小137B175B70B175B52B
预训练基础模型未知OPTChinchillaGPT-3.5未知

二、 从预测文本到遵循指令:指令微调 (IFT) 技术

传统的语言模型擅长预测文本,但要让其理解并执行用户指令,则需要进行“指令微调 (Instruction Fine-Tuning,IFT)”。IFT 的核心是向模型示范各种书面指令及其预期输出,例如:

指令:写一首关于微调的诗。
输出:... (ChatGPT 生成的诗歌)

IFT 的训练数据通常包括人工编写的指令和模型自举生成的实例。其中,自举指的是使用少样本技术,先输入少量样本引导模型,然后让模型自行生成新的指令、输入和输出,不断迭代优化。

三、 安全护航:有监督微调 (SFT) 与安全规则

经过 IFT 的模型虽然能够理解指令,但生成的回复不一定安全无害。为了解决这个问题,开发者会使用“有监督微调 (Supervised Fine-tuning, SFT)”,利用高质量的人工标注数据,进一步提升模型回复的安全性。

例如,谷歌的 LaMDA 就根据一系列预先定义的安全规则进行微调,这些规则涵盖了伤害、歧视、错误信息等方面,确保模型的回复符合道德和安全规范。

四、 更胜一筹:人类反馈强化学习 (RLHF)

为了进一步提升模型的性能,OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 Constitutional AI 都引入了“人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)”技术。

RLHF 的核心是根据人类的偏好对模型的回复进行排序,然后用这些带标注的数据训练偏好模型,最终通过强化学习优化对话代理。关于 RLHF 的更多细节,可以参考我们之前的文章:ChatGPT 背后的“功臣”——RLHF 技术详解。

五、 逻辑推理:思维链 (CoT) 提示

“思维链 (Chain-of-thought,CoT) 提示”是 IFT 的一种特殊形式,它通过引导模型进行逐步推理来生成最终答案。例如:

指令:小明有 5 个苹果,小红给了他 3 个,小明现在有多少个苹果?
CoT 推理:小明最初有 5 个苹果,加上小红给的 3 个,总数是 5 + 3 = 8 个。
输出:小明现在有 8 个苹果。

使用 CoT 微调的模型在需要逻辑推理的任务上表现更出色,例如常识推理、算术计算、符号推理等。

六、 展望未来:对话代理的进一步发展

尽管现有的技术已经取得了显著成果,但对话代理领域仍有许多问题亟待解决,例如:

  • RL 在人类反馈学习中的重要性?
  • 如何系统评估红蓝对抗的效果?
  • 如何选择最佳的基础模型?

相信随着技术的不断进步,对话代理将在未来展现出更加强大的能力,为人类带来更加智能、便捷的交互体验。

参考文献:

  • Rajani et al.,”What Makes a Dialog Agent Useful?”, Hugging Face Blog, 2023.

Leave a Comment