10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道 – 量子位

2026年05月07日,06时14分55秒 OpenAI 阅读 41 views 次

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

听雨 2026-04-29 12:20:49 来源：量子位

记忆才是AI最大瓶颈，智能体只是权宜之计

听雨发自凹非寺
量子位 | 公众号 QbitAI

引用量超过10万次，清华姚班校友，ConvNeXt、ImageBind、《无归一化的Transformer》……这些论文的作者——

普林斯顿大学助理教授刘壮，在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。

架构真的重要吗？数据集真的足够多样吗？归一化层是必需的吗？大语言模型有世界模型吗？AI智能体能替代博士生吗？

在《信息瓶颈》的最新播客中，刘壮和主持人Ravid Shwartz-Ziv、Allen Roush展开了长达一个多小时的对谈，解答了这些问题。

刘壮给出了几个核心判断（太长不看版）：

1、架构选什么，没你想的重要。

只要把残差连接、自注意力、归一化层、线性层这四大基础做对，不管用ConvNet还是Transformer，最终都会落在同一条性能曲线上。

过去十年真正推动AI进步的，是更大程度上是数据规模和计算规模，而不只是架构创新。

2、数据集远没有我们以为的多样。

他和何恺明做了一个实验：训练神经网络来判断一张图片来自哪个数据集。

结果在三个号称“多样化”的亿级数据集上，准确率高达80% 以上——

说明这些数据集在模型眼里仍然泾渭分明，距离“无偏的全球分布”还差得远。

3、大语言模型有世界模型，但只在语言空间里。

LLM在高层次事件推理上表现出色，但视觉空间的精细世界模型我们还没有——

根本原因是视觉数据的信息密度太高，现有算力还处理不了。

而且对于超过一半的工作场景（尤其是数字化的白领工作），根本不需要视觉世界模型。

4、记忆才是当前最大的瓶颈，不是能力。

现有模型的推理能力已经足够强，真正缺的是稳定的长期记忆。

我们需要那么多智能体协作，恰恰是因为一个智能体记不住所有事情。

5、自主科研还没到位，AI替代不了研究生。

他亲自测试过让Claude Code在一两天内独立完成一个研究项目。

结论是：低层次任务还行，但提出有意思的问题、设计实验、保持方向感——这些还做不到。

整个访谈有一条隐藏的主线：我们在AI领域里奉为圭臬的很多东西，其实是历史偶然。

而真正决定成败的，往往是那些更朴素、更无聊的因素——数据、规模、记忆。

以下是量子位梳理的刘壮最新访谈，为便于理解，有部分删减和润色，并在必要的地方添加了编者注，各位enjoy~

架构没那么重要，但细节决定一切

Ravid：今天我们会聊聊你的一些论文。总体上，我们要探讨当今AI中真正重要的组成部分是什么。你的研究成果很多，我想我们可以从“哪些组件最关键”开始。

几年前，你发表了一篇关于“面向2020年代的卷积神经网络”的论文。你能先介绍一下这篇论文，然后我们再来拆解当前AI系统的各个组成部分吗？

刘壮：嗯，当然。那是一段非常有趣的经历。

这篇论文我们是在2021年写的，那时候Transformer刚刚通过视觉Transformer的引入的话题。

我的理解是：视觉本质上是吞吐量非常高的数据——它流入我们感知系统的带宽远高于语言，而我们还没有足够的算力来真正处理这些数据。

想想看，就一帧图像，存储它所需的空间就远大于用语言描述这张图像——描述可能只需要几个字节，图像却需要几千字节，相差上千倍。

所以一张图片的信息量确实超过一千个词。

另外，我们也没有好的机制让模型在图像上做精细定位——在当前的多模态语言模型里，所有信息都已经编码在视觉 token 里了，模型没有办法回头去重新聚焦图像的某个区域。

如果视觉编码器质量不好，自回归模型对此毫无办法。

而语言处于一个低维得多的空间，每个词都有明确的含义——这有点像人类从自然界里做无监督学习。

我们在进化过程中筛选出了这些重要概念，把它们凝缩成词，每个词只需要几个字节的存储空间，而用图像来表示”杯子”这个概念，可能需要成千上万张图片。

处理这么大量信息所需的算力自然要高得多，我觉得我们目前还没有到那个程度。

Allen：好，然后是那篇我很喜欢标题的论文——《Eyes Wide Shut》，斯坦利·库布里克的最后一部电影。

你在论文里提出，很多多模态大语言模型的失败，都可以追溯到CLIP这样的视觉编码器以及CLIP的盲点。

能概括一下这篇论文吗？在你看来，这个瓶颈究竟有多少是视觉问题，又有多少是语言模型或对齐问题？

刘壮：我认为这在很大程度上是视觉编码器的问题。

正如我之前说的，这些模型只会学训练时教它们学的东西。如果训练时没有让模型面对你希望它擅长的任务类型，测试时它就不会好。

具体来说，CLIP训练的目标是让图像表示和它的文字描述对齐。而图像描述自然地更关注图像的内容——里面有什么物体，它们在做什么——而不太会明确说明这些物体的位置。

如果图中有一个人和一条狗，描述大概只会说“人和狗玩耍”，而不会说人在左边还是右边——这是我们人类描述图像时很自然的方式。

对人来说这没问题，我们不太在乎谁在左边。但如果你希望模型能够回答这类位置关系的问题，就需要在训练里用到这些。而这正是CLIP训练所忽略的。

结果我们得到一个被用作多模态语言模型视觉编码器的CLIP模型，它根本没被训练去处理这些任务。

这再次印证了我的观点：想让模型擅长什么，就要在那件事上训练它。

Allen：在《Eyes Wide Shut》那篇论文里，你建议把视觉特征和自监督特征混合来改善视觉定位。

如果同时优化语言对齐和细粒度视觉辨别，你认为多模态语言模型最理想的视觉编码器应该是什么样的？

刘壮：我现在心里想的解决方案就是两者都做。这两种是现在视觉预训练的两大主流范式。

我还想加一个——现在很多人在讨论世界模型——我会在视觉部分加入时间维度，这也会非常有帮助。

大语言模型有世界模型，但只在语言空间里

Ravid：我们来聊聊世界模型。你对世界模型的定义是什么？

刘壮：对我来说，世界模型就是预测世界如何运作，根据你当前的状态来预测世界接下来会发生什么。

Ravid：这具体是什么意思？

比如几周前Stephane Mallat来这里声称大语言模型有世界模型，而之前Yann LeCun来这里说我们需要显式地构建世界模型，目前的大语言模型并没有。

你怎么看？你觉得我们能定义出一个标准，来判断哪些模型有世界模型、哪些没有？

刘壮：是的，我认为大语言模型在语言空间里是有世界模型的，这毫无疑问。

语言是我们所接收的所有感知信号的更高层次的抽象，大语言模型在这个层面上有着相当好的世界模型。

我经常和ChatGPT讨论历史。几天前我让它想象一个假设场景：中国历史上某个事件里，我让ChatGPT想象如果那个失败的势力赢得了战争，历史会怎么变？

它给出的回答非常合理——把所有小事件串联起来，一切都讲得通，只是一些小概率的决策偏移，然后一切随之改变，像真实历史一样，完全有可能就是真实历史。

在这个意义上，我觉得没有哪个小说家或历史学家能超越它在这串事件中的逻辑推理水平。

所以它们确实有一个很好的世界模型，只不过是在非常高的抽象层次上。

当我们说“我们现在没有世界模型”，说的其实是视觉空间的世界模型——我们没法在像素空间里完整地恢复或模拟世界，这也是真的。

我认为模型有没有世界模型，取决于你想对世界的哪个层次建模。

如果你把世界的高层次事件视为一个自包含的世界，那我们通过语言模型确实有。

但如果你把每个像素、每个原始信号、每个物理信号，包括世界上每种物质的物理属性，都纳入考量，那我们确实还没有那个层次的精细化模型。

根本原因还是视觉数据的吞吐量太高，我们还没有足够的算力来完美地对它建模。

Ravid：那你觉得我们真的需要世界模型来解决 99% 的任务吗？

刘壮：对于数字化工作，比如白领工作，我认为不需要视觉世界模型。

很多事情都在数字空间里运作，我最多需要模型能读取我的电脑屏幕，而屏幕内容可以被数字化或压缩，通常最多是一组图像，不是实时视频流，这相对容易。

我目前用Claude Code的瓶颈之一就是需要截屏，这个问题应该很快可以解决，因为这些模型可能很快就能以安全的方式访问我们的屏幕。

但对于体力劳动，比如建筑、驾驶、体力活动，我认为确实需要视觉模型，因为这类工作中的反馈是非常细粒度的。

还有理发——你想剪哪部分头发、剪多少，这是没法靠语言模型来完成的。

还有一些物理性的工作，比如外科手术。我认为，真正需要视觉世界模型才能做好的工作，不会超过一半。

记忆才是真正的瓶颈，智能体只是权宜之计

Ravid：你怎么看强化学习？

现在所有实验室都在建自己的环境，想在编程或某些特定任务上做得更好，就搭一个专用环境，让模型在这个环境里训练，给它反馈和奖励。

你觉得这是未来的方向吗？

刘壮：是的，实际上我不确定每个实验室都这样做强化学习或监督微调是否真的可行。

我希望未来能有一套像预训练一样成熟的方法来做持续训练。可以是强化学习，也可以是情境工程、提示工程、智能体协作，这些都还是开放的。

也许还需要调整架构，让模型有更大的记忆、更长的上下文。

持续学习这件事，把通用模型适配到特定领域，我认为非常重要。

因为每个人在一生中会遇到不同的情境。你希望模型成为你的好助手，赋能你的生活和工作，你需要它记住大量上下文。

在这方面，人脑仍然远超模型——极大的记忆容量，快速学习，只需见一次就能记住一个事实，而且不会忘记。

你今天用Claude Code时，最让我担心的就是它是否还记得我之前做过的事，我相信很多人都有这个感受。

在我们各自的职业生涯里，有太多东西希望模型记住，不用每次都重新解释。

不是什么特定任务，而是所有一切——我们与他人的互动方式、过去的成就和失败等等。

我觉得这个答案可能不只是强化学习，更像是系统工程——怎么组织一切，让模型能轻松访问所需信息。

说到底还是数据问题：怎么组织数据，怎么提供足够的数据，怎么整合来自不同来源、不同输入的数据。也许以后我们会戴智能眼镜，给这些模型提供视觉输入。

Ravid：但你觉得基本的组件已经到位了，还是会保持不变？

我们只是需要搭好脚手架——比如怎么让智能体在世界里行动、收集数据、组织记忆这些事情？还是说我们需要从根本上改变什么？

刘壮：是的，这是个很好的问题。

有一个令人遗憾的现实是：不是每个人都能在这些超大模型的基础层面上做研究，只有负担得起训练成本的人才能做实验。

所以现在我们看到大量的智能体工作——因为这几乎是很多人能对系统做出改进的唯一方式。

智能体很好，但我注意到，我构建的每一套智能体系统，每一个脚手架——比如我试图搭一个能让Claude Code长时间运行的框架——

通常过几周或几个月，我会找到一个更简单的解决方案，比如用提示或一些内置命令和技能来实现同样的效果，而不需要Python脚手架这类东西。

所以我认为最大的教训是：保持系统简单，让模型自己做很多决定。

遗憾的是，不是每个人都能为底层模型能力的提升做贡献。

我们能做的是情境工程和智能体。但在基础能力方面，我认为我们仍然可以追赶。

我们现在关心的每一个任务，在一定的性能水平上，都可以用更少的智能体、更少的脚手架来完成，而更多地依赖模型本身的能力。

我认为我们仍然处在这条曲线上。

Ravid：但我们为什么要在意呢？在算力和数据越来越多的世界里，为什么不就直接搭智能体解决所有问题？

刘壮：智能体还是会犯错——代码智能体也是。

我遇到的很多错误都是因为它记不住某些东西，这很明显，应该是显而易见的。

所以我认为在记忆方面——记忆和上下文——这是目前最重要的问题，尤其是记忆。它们是一枚硬币的两面。

即使你有无限的上下文，如果它忘记了或者记错了事实，它的记忆力仍然不好。

Claude Code前几天宣布支持100万token的上下文窗口，大家都很振奋，包括我，这很好。

但我们怎样才能拥有无限的记忆？至少是持续学习问题——怎样才能不忘记？

我觉得这比怎么构建协作智能体更重要，如果我们在这方面取得突破，会更有价值。

我们需要很多智能体，恰恰是因为一个智能体记不住所有事情，需要拆分任务。

如果一个智能体能记住所有事情，做完这个任务还不忘记上一个任务，那所有工作就可以交给这一个智能体完成。

作为个人助手，有一个能记住所有事情的助手，总比协调多个智能体更方便。

Allen：你还有一篇我很感兴趣的论文——《大语言模型中的特异性》，发现模型特有的特征在改写、翻译、摘要之后仍然保留。

你觉得这些“指纹”到底在度量什么？是预训练数据、训练后的风格、解码行为，还是更底层的结构性因素？

刘壮：这篇论文做的是同样的分类任务——给定一段文本，让一个独立的神经网络判断它是由哪个语言模型生成的。

我们发现准确率可以非常高，在五个候选模型的情况下可以达到99%。

当时对我们来说也挺出乎意料的。

但现在我认为大家越来越接受一件事：语言模型生成的文本里确实存在线索，即使不是AI研究者的普通人也能判断出大概是哪个模型写的。

现在这不再那么令人惊讶了，因为每家公司都有自己的策略来最大化用户参与度，导致模型输出了不同的风格。

到底是什么造成了这些差异？我认为每家提供商对风格的选择非常关键——系统提示，我们看不到他们的系统提示，他们有没有让模型输出详细或简洁，有没有用列表？

后训练策略也有很大影响，不同公司的后训练方式不同，他们招募标注员的方式、评分标准都会有系统性差异，这些都会鼓励不同的行为模式。

预训练也有影响，每家公司的预训练数据来源不同，有些侧重编程和数学推理，有些优化通用知识覆盖。

令人遗憾的是，我们不知道这些差异各自贡献多少。

总体来说，我认为后训练和系统提示的设计是造成差异的主要原因，占大部分比重。

Ravid：你怎么看预训练这件事？预训练、中训练、后训练这种划分会继续存在吗？

刘壮：我认为预训练和中训练彼此更相似，都和后训练有所不同。

后训练的奖励信号是不同的，因为它涉及到人类判断和人类偏好。

预训练和中训练本质上都是自回归，只是数据风格和上下文长度不同。

中训练是个比较新的概念，几年前我们只有预训练和后训练，现在多了一个中训练。

中训练或许是一种临时状态，因为中训练的核心是扩展上下文长度、引入更高质量的数据。

我没有这些公司的内部信息，但我觉得这可能是一种妥协——我们没有足够的算力始终在超长上下文上训练、始终在最高质量数据上训练。

所以预训练和中训练可以统称为“预训练”，引号里的那种。

后训练不同，因为它涉及人类对模型行为的主动引导，这种区别不会消失。

但我希望未来还有另一个阶段——针对每个用户定制的持续训练，定制偏好、记忆需求、使用风格，那会非常好。

Ravid：你怎么看持续学习？是像自监督学习那样从不同视角的差异里学习？

还是针对特定任务，有了新数据再解决特定问题？

刘壮：我认为持续学习不太是关于增强能力的。我更愿意把它看作更好的记忆。

这些模型已有的能力已经很好了，它们能解出大多数人解不了的数学题。

我们需要的是让模型记住每个人的个性习惯——我会如何回应某些事件？我有哪些基本原则？

即使我把自己生活里所有的经历和偏好都写在一个Markdown文件里，它还是可能遗漏。

比如我现在有一个全局的Claude MD文件，告诉模型遇到某些情况时要注意什么，但它们经常还是会忽略。

我没有好的办法让这些内容真正“粘”在模型上。

所以我一直认为，持续预训练更多是关于拥有稳定的记忆、不在小事上犯错，而不是发展更多能力。

是找到在合适场景下使用正确技能的能力，而不是发展更强大的技能。

Ravid：你怎么看这件事？

我好像在LinkedIn或Twitter上看到有人说，有了新的编程智能体，他不再需要学生了，直接告诉智能体想做什么，让它跑实验、出结果、写报告就行了。

你觉得我们会看到更多学生还是更少学生？

刘壮：从教育角度来说，我认为我们需要更多深度投入其中的学生，需要能够使用AI并进一步推动AI发展的学生。这一点不应该有什么争议。

从实际项目的角度，我认为答案是一样的。

只要有合理的资源和时间，我现在可以用Claude Code自己做一个小项目。但这不是全自动的。

我曾经让它在一两天内独立完成一个项目，从构思到实验到写论文，但效果不好——

提出的问题很模糊，对我来说没什么意思；做的实验不够全面，只是勉强能支撑结论；我需要反复提示才能把它引到正确的方向。

它忘记事情的频率也超出我的预期。我让它一直用某个GPU分区，它可能遵守几个小时，任务完成后就忘了。

我希望它永不停歇，根据当前实验结果不断探索、设计下一个实验测试新假设，但它就是不听，有时候会陷入局部最优。

所以我认为它们擅长低层次的任务，在更高层次的研究理解和导航上还不够好。

学生也可以像我一样，让Claude Code帮自己提高工作效率。

而且如果他们有正确的心态，不把所有事情都委托给AI，他们仍然会在这个过程中成长，成为好的研究者。

我认为我们需要更多这样的学生，不是更少。

Ravid：你听说过吗，Andrej Karpathy 发布了AutoResearch，就是给一个代码智能体去优化NanoGPT，让它连夜跑多个实验，结果验证损失确实在下降。

刘壮：对，对。

Ravid：智能体提出的一个建议是改变随机种子，然后结果就变好了很多。

我自己也试过类似的事，就是对这个项目做了个很简单的贝叶斯优化，超参数搜索。

结果发现用更少的迭代次数、更短的时间就能得到更好的结果。

我觉得最终我们需要搞清楚，哪些用法真正有效，哪些还没到位，哪些只是因为看起来时髦、大家都用，所以我们在浪费时间去提示它。

刘壮：嗯。

Ravid：所以，我同意你的判断，自主研究目前还没到那个阶段。

未来会不会到，我不知道，也许会。但至少对某些场景，对某些用途，用来开发产品已经相当不错、接近可用了。

刘壮：嗯，嗯。

Ravid：但在研究方面，还没到。

刘壮：确实，这也是我的亲身体验。

参考链接：
https://www.the-information-bottleneck.com/what-actually-matters-in-ai-with-zhuang-liu-princeton/

‍

(来源:量子位)

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

听雨 发自 凹非寺 量子位 | 公众号 QbitAI

架构没那么重要，但细节决定一切

大语言模型有世界模型，但只在语言空间里

记忆才是真正的瓶颈，智能体只是权宜之计

关联资讯:

用户登录

听雨发自凹非寺
量子位 | 公众号 QbitAI