万万没想到,ChatGPT参数只有200亿?

2023年10月31日,15时15分32秒 OpenAI 阅读 37 views 次

谁都没有想到,ChatGPT 的核心秘密是由这种方式,被微软透露出来的。

昨天晚上,很多讨论 AI 的微信群都被一篇 EMNLP 论文和其中的截图突然炸醒。

微软一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文,在做对比的时候透露出了重要信息:ChatGPT 是个「只有」20B(200 亿)参数的模型,这件事引起了广泛关注。

万万没想到,ChatGPT参数只有200亿?

距 ChatGPT 发布已经快一年了,但 OpenAI 一直未透露 ChatGPT 的技术细节。由于其强大的模型性能,人们对 ChatGPT 的参数量、训练数据等信息抱有诸多疑问和猜测。

作为行业一直以来的标杆,ChatGPT 性能强大,可以解决各种各样的问题。它的前身 GPT-3 参数量就达到了 1750 亿,实用化以后的大模型居然被 OpenAI 瘦身了快 9 倍,这合理吗?

「如何看待这篇论文」的话题立刻冲上了知乎热榜。

万万没想到,ChatGPT参数只有200亿?

论文链接:https://arxiv.org/abs/2310.17680

具体来说,微软这篇论文提出了一种预训练的扩散代码生成模型 ——CodeFusion。CodeFusion 的参数量是 75M。在实验比较部分,论文的表 1 将 ChatGPT 的参数量明确标成了 20B。

众所周知,微软和 OpenAI 是合作已久的一对伙伴,并且这是一篇 EMNLP 2023 论文,因此大家推测这个数据很有可能是真实的。

然而,关于 ChatGPT 参数量的猜测,人们一直认为是一个庞大的数字,毕竟 GPT-3 的参数量就已经达到了 175B(1750 亿)。掀起大型语言模型(LLM)浪潮的 ChatGPT,难道就只有 20B 参数?

大家怎么看?

这个数据被扒出来之后,在知乎和 Twitter 已经引起了广泛讨论。毕竟,200 亿参数达到这样的效果十分惊人。再则,国内追赶出的大模型动则就是数百亿、上千亿。

那么这个数据保不保真?大家都有什么看法呢?

NLP 知名博主、新浪微博新技术研发负责人张俊林「盲猜」分析了一波,引起了大家广泛赞同:

早在 OpenAI 开放 ChatGPT API 时,0.002 美元 / 1k token 的定价就令人们意外,这个价格只有 GPT-3.5 的 1/10。彼时就有人推测:「ChatGPT 是百亿(~10B)参数的模型」,并且「ChatGPT 使用的奖励模型(reward model)可能是千亿级模型」。该推测来源于清华大学 NLP 在读博士郑楚杰的知乎回答。

万万没想到,ChatGPT参数只有200亿?

原回答链接:https://www.zhihu.com/question/587083296/answer/2918080518

而国内外许多网友也都认为,200 亿的参数,是完全合理的。

万万没想到,ChatGPT参数只有200亿?

也有知乎网友从价格上分析,这个数据也应该是对的。

万万没想到,ChatGPT参数只有200亿?

当然,也有网友认为这可能是个「拼写错误」,或许实际是 120B(1200 亿),至少 120B 和 GPT-3(175B)是一个数量级。

万万没想到,ChatGPT参数只有200亿?

但所有这些都是猜测,由于 OpenAI 对参数量、训练数据、方法等核心信息一直讳莫如深,因此 20B 这个数据到底是不是真的根本无法求证。如果是真的,那么大型语言模型未来的改进方向还会是增加参数量吗?

再过几天,就是 OpenAI 的开发者大会了,也许我们能够了解到更多有用的信息,让我们拭目以待吧。

万万没想到,ChatGPT参数只有200亿?

参考内容:
https://www.zhihu.com/question/628395521
https://twitter.com/felix_red_panda/status/1718916631512949248

(来源:机器之心)

标签:


用户登录