Transformer八周年!Attention Is All You Need被引破18万封神

2025年06月13日,13时01分27秒 科技新知 阅读 4 views 次

新智元报道

编辑:定慧

【新智元导读】Transformer已满8岁,革命性论文《Attention Is All You Need》被引超18万次,掀起生成式AI革命。

Transformer,八岁了!

开创如今这场生成式AI革命的论文《Attention Is All You Need》迎来了第8个年头。

Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。

更重要的是,它让人类真正跨入了生成式AI时代。

人类和生成式AI的命运从2017年6月12日周一下午17点57分开始交汇。

Transformer八周年!Attention Is All You Need被引破18万封神

Transformer的影响依然还在继续!

到今天为止,这篇论文的被引次数已经到了184376!

而在两年前的6周年时候,被引次数是77926。

仅仅过去两年时间,被引用次数翻了2倍还多!

Transformer八周年!Attention Is All You Need被引破18万封神

网友们也纷纷为Transformer 8岁生日送上祝福。

Transformer八周年!Attention Is All You Need被引破18万封神

但和所有传奇故事的开头都非常相似,这篇论文当年甚至没有引起人们的Attention(注意)。

一篇未获人们「Attention」的传奇论文

Transformer发表在2017年的NeurIPS上,这是全球顶级的人工智能会议之一。

然而,它甚至没有获得Oral演讲,更不用说获奖了。

Transformer八周年!Attention Is All You Need被引破18万封神

2017年的NeurlPS获奖论文

从如今的影响力和现实意义来看,谷歌公开这篇文章算得上是「功德无量」。

网友也盛赞谷歌的做事方式,允许任何人完全免费使用,甚至不需要许可证授权。

Transformer八周年!Attention Is All You Need被引破18万封神

但随着生成式AI的发展,各家巨头的加入,谷歌也开始逐渐收回自己的「善意」。

在大模型如今竞争白热化的当下,谷歌DeepMind要求所有科研人员的生成式AI相关论文设定6个月禁发期!

DeepMind的CEO Hassabis曾表示:不接受,就辞职,这里是公司,不是大学校园;想在大学那样的环境工作,那就请你离开。

Transformer八周年!Attention Is All You Need被引破18万封神

不仅如此,创新成果不发,Gemini短板也不能提。

或许谷歌一开始也并没有预料到Transformer会影响人类历史如此深远。

人人都爱Transformer

作为一篇严肃的机器学习向论文,《Attention Is All You Need》自发布以来,已经有无数人进行了解读。

不论是否和机器学习行业相关,人们「渴望」搞清楚目前生成式AI的能力究竟来源于哪里。

不论是国内还是海外,试图带你读懂论文的视频都有很高的热度,并且直到今天,「教你学会」、「带你看懂」等内容依然有非常高的播放量。

Transformer八周年!Attention Is All You Need被引破18万封神

Transformer八周年!Attention Is All You Need被引破18万封神

科技领域的顶级KOL Lex Fridman和AI界的顶级科学家Andrej Karpathy 认为Transformer是AI世界中「最棒的想法」,没有之一。

Transformer八周年!Attention Is All You Need被引破18万封神

而「XXX Is All You Need」甚至成为了严肃学界乐此不疲的玩梗素材。

论文题目直接套用了披头士名曲《All You Need Is Love》的说法,也正因其简洁而响亮的表达方式,迅速被AI学界和网络社区广泛引用和调侃——

Transformer八周年!Attention Is All You Need被引破18万封神

从「Attention Is All You Need」延伸为「X Is All You Need」的各种变体,形成一整套互联网meme式的幽默结构 。

「标题的成功」还引发了一连串同样玩梗的论文出现,这些论文的标题或内容都借用了这一俏皮话。

有研究人员甚至制作了一张图展示了对所有这些论文的综述,使读者能够总结出这些论断出现的背景及其原因。

Transformer八周年!Attention Is All You Need被引破18万封神

Transformer八周年!Attention Is All You Need被引破18万封神

Transformer后时代:AI八年狂飙

自Transformer问世以来的八年间,研究者和工程师们围绕这一架构进行了大量探索和改进。

Transformer的发展历程既包括模型本身的架构优化,也包括模型规模的指数级扩展,以及向多模态领域的延伸融合。

Transformer架构天然适合并行计算,这使得研究人员能够不断堆高模型参数规模,验证「大模型是否更聪明」。

事实也证明,参数和数据规模的扩张带来了质的飞跃

从最初论文中的亿级参数模型,到2018年的BERT(3.4亿参数)和GPT-2(15亿参数),再到2020年的GPT-3(1750亿参数),模型大小呈指数级增长。

OpenAI等机构的研究揭示了清晰的Scaling Law(规模定律):模型越大,数据越多,性能越佳且涌现出小模型不具备的新能力。

随着规模扩张,Transformer模型展现出令人惊叹的零样本/小样本学习能力,即无需或只需极少示例就能完成新任务。

模型规模的扩展带来了AI能力的质变,使Transformer成为真正的基础模型(Foundation Model)——一经训练即可泛化支持众多下游应用。

不过,每个传奇故事似乎都没有那么Happy Ending的结尾。

曾经联手打造出谷歌最强Transformer的「变形金刚们」如今也已分道扬镳。

8年前一篇不起眼的论文,却彻底开启了人类的生成式AI时代。

这个被忽视的小论文,彻底开启了AI的大时代。

它的故事还远远没有结束。

目前的AI仍然继续在Transformer架构基础上狂飙突进。

Transformer的影响力还能持续多久,也许只有等AGI实现那天来回答了。

但无论未来AI技术如何演变,Transformer已经在历史上留下永久且深刻的印记。

参考资料:

Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界

Transformer八子全部叛逃谷歌!最后一位共同作者月底离职创业

(来源:新浪科技)



用户登录