OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键
-
我们越来越希望教会模型掌握更抽象的行为 -
指令微调的目标函数似乎是教授这些行为的「瓶颈」 -
最大似然目标是「预定义的」函数(即不可学习的参数) -
我们能否参数化目标函数并学习它?
-
最大似然有过于强大的归纳偏见,当模型规模变大时,这个问题会更显著; -
学习目标函数是一种不同的范式,有助于缓解这个问题,能提供很大的提升空间,ChatGPT 等一些成功利用 RLHF 的案例只是一个开始; -
其原理很可靠,值得进一步发掘其功效。