为什么ChatGPT用强化学习而非监督学习？

强化学习的必要性主要来自对人工智能模型交互模式的理解和需求。模型有文本型、求知型和创造型三种交互形式。在求知型模式中，我们希望模型能提供真实的回答，当模型对答案不确定时，我们希望它能说“我不知道”或拒绝回答。

然而，监督式训练可能会导致模型做出不真实的回答。问题的核心在于模型在回答问题时要依赖其内部知识，但我们并不清楚模型的内部知识包含何种内容。在监督训练过程中，我们向模型提供问题和答案，并训练模型复制我们的答案。这就可能会引发两种情况：一种是模型对答案有所了解，监督学习能够将答案与问题关联起来，并可能让模型通过相似的过程回答未来的类似问题。这是我们所期望的。另一种是模型对答案一无所知，但监督训练仍然会让模型尝试给出答案。

我们有选择要么让模型记住特定的问题和答案，也就是依赖模型的记忆，这是低效的，因为我们希望模型有能力泛化和回答各种问题，而不只是在训练数据中出现的那些。另一种选择是试图让模型在不了解答案的情况下做出泛化，这实际上就是让模型“编造”答案，这是不被接受的。

由于我们无法确定模型知道什么或不知道什么，因此无法避免模型“编造”答案的情况。这对监督训练来说是一个实质性的问题，因此，我们需要强化学习的介入。

强化学习不会引导模型编造答案。即使模型一开始猜对了一些答案，并且错误地学习到了“编造”行为，但从长远角度看，由于编造的答案得分低（可能是错误的），模型会学会依赖其内部知识，或选择不回答问题，这就能得到我们期望的结果。