为什么ChatGPT用强化学习而非监督学习?

强化学习的必要性主要来自对人工智能模型交互模式的理解和需求。模型有文本型、求知型和创造型三种交互形式。在求知型模式中,我们希望模型能提供真实的回答,当模型对答案不确定时,我们希望它能说“我不知道”或拒绝回答。


然而,监督式训练可能会导致模型做出不真实的回答。问题的核心在于模型在回答问题时要依赖其内部知识,但我们并不清楚模型的内部知识包含何种内容。在监督训练过程中,我们向模型提供问题和答案,并训练模型复制我们的答案。这就可能会引发两种情况:一种是模型对答案有所了解,监督学习能够将答案与问题关联起来,并可能让模型通过相似的过程回答未来的类似问题。这是我们所期望的。另一种是模型对答案一无所知,但监督训练仍然会让模型尝试给出答案。


我们有选择要么让模型记住特定的问题和答案,也就是依赖模型的记忆,这是低效的,因为我们希望模型有能力泛化和回答各种问题,而不只是在训练数据中出现的那些。另一种选择是试图让模型在不了解答案的情况下做出泛化,这实际上就是让模型“编造”答案,这是不被接受的。


由于我们无法确定模型知道什么或不知道什么,因此无法避免模型“编造”答案的情况。这对监督训练来说是一个实质性的问题,因此,我们需要强化学习的介入。


强化学习不会引导模型编造答案。即使模型一开始猜对了一些答案,并且错误地学习到了“编造”行为,但从长远角度看,由于编造的答案得分低(可能是错误的),模型会学会依赖其内部知识,或选择不回答问题,这就能得到我们期望的结果。


蓝海大脑 京ICP备18017748号-1