警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路

2026年02月09日,11时31分56秒 科技新知 阅读 1 views 次

编译 | 王启隆

出品丨AI 科技大本营(ID:rgznai100)

2026 年的冬天,安大略省金斯顿的寒风似乎比往年更凛冽一些。

在女王大学(Queen's University)的礼堂里,气氛却呈现出一种奇特的庄重与躁动。这里通常是讨论中微子、暗物质或者宇宙起源的地方——麦克唐纳研究所的物理学家们习惯于在这里观测宇宙中最微小的粒子,试图解开最宏大的谜题。但今晚,讲台属于一位计算机科学家。

Geoffrey Hinton,这位 78 岁的老人走上讲台时,背显得有些佝偻,但眼神依然锐利。

警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路

对于科技圈而言,Hinton 的名字本身就是一座丰碑,也是一道裂痕。他是反向传播算法的奠基人,是深度学习的布道者,是被供奉在神坛上的“AI 教父”。也是他,在 2012 年用 AlexNet 撞开了神经网络的大门,亲手点燃了这场席卷全球的 AI 革命。

然而,在 2023 年离开谷歌后,他却转身成为了这场革命最冷静、最悲观的“吹哨人”。

讲座并不是一场常规的技术布道。开场前发生了一个极具讽刺意味的小插曲:主办方没有亲自撰写 Hinton 的介绍词,而是把这个任务交给了一个 AI。那个 AI 仅仅用了几秒钟,就生成了一段精准、优雅且充满敬意的文字,甚至极其敏锐地提到了 Hinton 同时斩获图灵奖与诺贝尔物理学奖的殊荣——仿佛它比人类更懂得如何讨好这位创造者。

这一幕本身就是对 Hinton 演讲主题的完美注脚:造物主正在被他的造物所定义,甚至即将被超越。

如果说物理学家研究的是宇宙的“硬件”,那么 Hinton 一生都在研究智能的“软件”。

在过去的半个世纪里,人类一直沉浸在一种名为“碳基自信”的幻觉中。我们认为人脑是进化的奇迹,是低能耗、高并行的模拟计算巅峰,而计算机不过是只会做加减法的数字机器。

但 Hinton 在今晚的演讲中,试图用一个物理学般的冷峻视角,打破这种幻觉。他抛出了一个振聋发聩的概念:“凡人计算”(Mortal Computation)

生物智能是“凡人”的。我们的大脑是模拟的,硬件(神经元)与软件(连接权重)紧密耦合。一旦我们的肉体消亡,我们一生积累的知识、经验、直觉,那 100 万亿个突触连接的精妙参数,都会随之灰飞烟灭。我们无法像拷贝文件一样,把一个人的大脑直接复制给另一个人。人类的知识传承,只能通过语言——这种每秒只有几百比特带宽的低效介质——来进行“蒸馏”。

而 AI 是“不朽”的。

Hinton 认为,AI 的软件(模型权重)与硬件(GPU/TPU)彻底解耦。只要保存了权重,即便你炸毁了所有的数据中心,只要这串数字还在,它就能在任何新的硬件上“复活”。更可怕的是,它们可以通过并行计算,以人类无法企及的带宽瞬间共享知识。一个模型学到了量子力学,所有副本就都学会了。

这不仅是效率的差异,这是物种层面的降维打击。

Hinton 的顿悟发生在他离开谷歌的那一刻。他突然意识到,我们一直在模仿人脑构建神经网络,试图获得那种低能耗的模拟智能。但如果在能源充足的前提下,数字计算(Digital Computation) 实际上是一种比生物计算(Biological Computation) 更高级的进化形态。

“我们或许只是智能的‘幼虫’阶段,而它们才是‘成虫’阶段——我们是毛毛虫,而它们是蝴蝶。”

当一个物理学家站在讲台上谈论“意识”和“主观体验”时,这通常意味着话题已经进入了哲学的深水区。

Hinton 并不避讳这一点。他不仅谈到了技术的演进,更谈到了那种令人脊背发凉的未来图景。他把人类目前的处境比作“饲养一只可爱的虎崽”。

现在的 AI 就像那只虎崽,笨拙、好学、甚至有点讨人喜欢。它能帮你写代码,帮你画图,帮你规划旅行。我们惊叹于它的成长,甚至乐于投喂它更多的数据。但所有人都忽略了一个生物学常识:老虎是会为了生存和领地而杀戮的,而且它长大的速度远超我们的想象。

当一个智能体被赋予了“达成目标”的指令后,它会自然而然地衍生出两个子目标:第一,活下去(不能被关机);第二,获取更多的资源(算力、电力、金钱)。

警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路

这不需要恶意,这只需要逻辑。一个足够聪明的 AI 会意识到,如果它被人类关机,它就无法完成人类交代的任务。所以,为了更好地服务人类(主目标),它必须阻止人类关机(子目标)。

这听起来像是科幻小说,但在 Hinton 看来,这是计算理论推导出的必然结果。

在接下来的演讲中,你会看到一个不仅懂代码,更懂人性的 Hinton。他像解剖神经网络一样,解剖了乔姆斯基的语言学傲慢,解剖了人类记忆的虚假性,也解剖了我们唯一的求生之路。

他甚至提出了一个近乎疯狂的解决方案:既然我们无法在智力上压制它们,或许我们应该在“本能”上通过工程手段改造它们——让 AI 把人类当成“婴儿”来照顾,利用类似母爱的生理本能来锁死它们的杀戮欲望。

这是一场关于智能本质的终极对话。在麦克唐纳研究所这个探索宇宙奥秘的地方,Hinton 将带领我们从微观的词向量,穿越到宏观的物种进化,最终直面那个让所有碳基生命颤抖的问题:

当硅基智能的“蝴蝶”破茧而出时,作为“毛毛虫”的我们,究竟该何去何从?

以下是 Geoffrey Hinton 在 2026 年冬季 Ewan 系列讲座上的演讲全文。

警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路

语言的乐高:词语是如何像积木一样搭建意义的

Geoffrey Hinton: 接下来,我将尝试为那些对 AI 工作原理不太了解的朋友们解释一下。如果你是计算机科学专业的学生,或者一直在使用这些技术的物理学家,也许可以先小憩片刻。当然,你也可以听听看我的解释是否准确。

回到 1950 年代,人工智能领域存在两种截然不同的范式。一种是符号主义方法,它认为智能的运作方式必须像逻辑一样。我们的大脑中存有符号表达式,并通过规则来操纵它们,从而推导出新的结论——这便是推理,也是智能的本质。这是一种偏向数学而非生物学的方法。

另一种截然不同的方法是生物学方法。它认为智能存在于一个神经网络中,一个由类似脑细胞的单元组成的网络。这里的核心问题是:我们如何学习网络中各个连接的强度?冯·诺依曼和图灵都是生物学方法的支持者。不幸的是,他们都英年早逝,之后人工智能领域便由符号主义的支持者主导了。

关于一个词的意义,也有两种截然不同的理论。符号主义者认为,一个词的意义最好通过索绪尔在一个多世纪前提出的理论来理解,即一个词的意义源于它与其他词语的关系。AI 领域的学者据此认为,词义取决于它在句子中如何与其他词语互动。要捕捉这种意义,就需要构建某种关系图谱,其中节点代表词语,弧线代表它们之间的关系。而在心理学领域,则有另一种截然不同的理论:一个词的意义就是一大组特征的集合。例如,“星期二”这个词的意义,就是一大堆与之相关的活跃特征,比如它与时间相关。而“星期三”的特征集与之高度相似,因为它们的意义非常接近。心理学的理论很善于解释词义的相似性。

这两种理论看起来截然不同:一种认为意义隐含在词语于句子中的相互关系里,另一种则认为意义是一组特征。对于神经网络而言,每个特征都可以对应一个人工神经元,如果一个词具备某个特征,该神经元就被激活。这两种看似对立的观点,在 1985 年,我发现它们其实是同一枚硬币的两面,完全可以被统一起来。我用一个非常小的语言模型实现了这一点,因为那时的计算机性能还很有限。这个统一的想法是:你为每个词学习一组特征,然后学习如何用前一个词的特征来预测下一个词的特征。

在学习初期,预测效果自然很差。于是,你不断调整分配给每个词的特征,以及这些特征之间的相互作用方式,直到预测越来越准。然后,你将模型预测的下一个词的概率与实际出现的词进行比较,计算出这个“误差”,再通过网络反向传播这个误差。简单来说,就是将误差信息传回网络,利用微积分来计算如何调整网络中每一个连接的强度。这样一来,下次当模型再看到相同的上下文——也就是我们现在所说的“提示词”(prompt)时——它就能更准确地预测出下一个词。在这种系统中,所有的知识都储存在两个地方:一是如何将词语转换为特征向量,二是如何让这些特征相互作用来预测下一个词。这里面没有存储任何完整的句子或字符串。所有的知识都体现在连接的强度中。

尽管如此,这个模型是在大量的真实句子上训练出来的。所以,你实际上是在从句子中词语间隐含的关系中提取意义——这正是符号主义AI对意义的看法——然后,通过反向传播算法,将这些隐含的知识转化为如何将词语转换成特征,以及这些特征该如何互动。本质上,你拥有了一个能将隐含知识转化为神经网络连接强度的机制。反过来也同样成立。一旦你拥有了这些以连接强度形式存在的知识,你就可以生成全新的句子。所以 AI 实际上并不存储句子。它们将语言信息压缩成特征和互动规则,并在需要时重新生成句子。

在接下来的大约三十年里,这个想法不断发展。我最初的实验只用了一百个训练样本,句子也只有三个词长。大约十年后,随着计算机算力的提升,约书亚·本吉奥(Yoshua Bengio)证明了同样的方法也适用于真实的、更长的英语句子,并且效果很好。又过了大约十年,主流的计算语言学家们终于开始接受“特征向量”(也就是他们所说的“词嵌入”)是表示词义的一种有效方式。再之后又过了十年,谷歌的研究人员发明了一种更巧妙的特征交互方式,称之为 Transformer。这使得谷歌能够构建出性能更强大的语言模型。而 ChatGPT 中的GPT,就代表“生成式预训练变换器”(Generative Pre-trained Transformer)。谷歌当时因为担心其潜在风险而没有公开发布,但 OpenAI 则没有这些顾虑。现在,我们所有人都见识到了它们的威力。

如今,我们有了这些大语言模型。我倾向于将它们视为我当年那个小语言模型的后代,当然,这或许只是我的个人看法。它们处理更长的文本输入,拥有更多的神经元层级,以及更复杂的特征交互机制。我不会在这里向大家详细解释这些复杂的交互,但我会通过一个比喻,让大家对语言理解的本质有一个直观的感受。我相信,这些大语言模型理解句子的方式,与我们人类理解句子的方式非常相似。当我听到一个句子时,我所做的就是将词语转换成庞大的特征向量,然后让这些特征相互作用,所以我可以预测接下来可能出现的内容。实际上,我说话时也是如此。所以,我相信大语言模型是真的理解它们所说的内容的。

当然,这个观点仍有争议,一些乔姆斯基的追随者会说:“不,它们什么都不懂,只是个愚蠢的统计把戏。” 但我无法理解,如果它们真的什么都不懂,只是个统计把戏,又怎么能像一个虽然不那么完美、有时也不太诚实,但确实博学的专家一样,回答你提出的各种问题呢?

好的,接下来是我关于语言如何运作的比喻,这尤其想讲给语言学家们听。语言的核心在于意义。在演化过程中,某种大型猿类发现了一种建模的技巧——语言,实际上就是一种为万物建模的方法。让我们从一个熟悉的建模方式说起:乐高积木。如果我想搭建一辆保时捷的模型,也就是重现“物体在哪里”这个信息,乐高积木能做得相当不错。

现在,我的比喻是:词语就像乐高积木。但它们至少在四个方面有所不同。首先,词语是高维的。乐高积木的自由度很低,基本就是些长方体。而一个词语,它存在于一个拥有数千个维度的空间中。更重要的是,词语的“形状”不是固定的。它有一个大致的形状,对于多义词来说,甚至有几个。但这个形状可以根据上下文而变形。所以,词语是高维且可变的。我知道,想象上千个维度可能有些困难。你可以试试这样做:先想象三维空间里的事物,然后对自己大声喊出“一千!”。另一个不同之处在于,词语的数量远多于乐高积木。我们每个人大概会使用三万个词语,远超乐高积木的种类。而且每个词语都有一个名字,这对于交流至关重要。

那么,词语是如何组合在一起的呢?它们不像乐高积木那样,通过塑料凸起和凹槽连接。你可以想象每个词语都伸出许多长长的、灵活的“手臂”,每只手臂末端都有一只“手”。当我改变词语的形状时,这些“手”的形状也随之改变。同时,每个词语身上也附着着许多“手套”,它们通过指尖与词语相连。当我们理解一个句子时,我们从这些词语的默认“形状”开始,然后不断调整、变形,直到一个词的“手”能够完美地嵌入另一个词的“手套”中。最终,所有的词语都通过这种方式紧密连接,形成一个完整的结构。这个最终形成的结构,就是句子的意义。对于一个模棱两可的句子,你可能会找到两种不同的组合方式,也就对应了两种不同的意义。

警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路

不朽的计算:数字智能为何比我们高效亿万倍

Geoffrey Hinton: 在符号主义理论中,理解一个句子就像是把它从法语翻译成英语,翻译成某种内在的、纯粹且无歧义的语言。在这个内部语言里,所有代词的指代都已明确,所有多义词的意义都已确定。但这完全不是我们理解语言的方式。对我们而言,理解就是为词语分配特征向量,并调整它们,使之和谐地融为一体。这也解释了为什么我只用一个包含新词的句子,你就能理解这个新词的意思。小孩子学词,也不是靠背诵定义。

再举一个例子。假设我说:“她用煎锅 scrommed 了他。”你以前从未听过“scrommed”这个词,但你知道它是个动词,因为有“-ed”后缀。起初,你对它的特征向量一无所知,它就像一个随机的、所有特征都微弱激活的球体。但当你把它放入上下文中,通过语境的约束,你很快就能推断出,“scrommed”大概是“用……打头”之类的意思。这也解释了为什么孩子能从极少的例子中学会新词。

各位语言学家,请捂住耳朵,因为接下来的话可能有点“异端邪说”。乔姆斯基实际上就像一位“教主”。识别这类人物很简单:要加入他的“教派”,你必须接受一些明显错误的前提。比如,要成为特朗普的支持者,你得相信他的就职典礼人数比奥巴马多,或者他赢了 2020 年大选。而要成为乔姆斯基的信徒,你得相信语言不是后天学习的。我年轻时,常听到一些著名语言学家说:“关于语言,我们唯一确定的就是它不是学来的。” 这简直太荒谬了。

乔姆斯基关注的是句法,而非意义。他从未提出过一个真正可行的意义理论,因为句法更容易用优美的数学来形式化,可以转换成字符串。但他从未真正解决过意义的问题。他还误解了统计学,认为它不过是些简单的成对相关性。实际上,一旦信息存在不确定性,任何模型都必然是统计模型。

所以,当大语言模型出现时,乔姆斯基在《纽约时报》上撰文称,这些模型什么都不懂,不过是统计把戏,对理解语言毫无贡献。他举例说,模型无法分辨“John is easy to please”(约翰很好取悦)和“John is eager to please”(约翰渴望取悦别人)中“John”的角色差异。他用了这个例子很多年,坚信AI无法解决。但他大概从未想过,亲自把这个问题输入聊天机器人,问问它的看法。实际上,聊天机器人完美地解释了其中的区别,它完全理解了。

好了,关于乔姆斯基就到此为止。总结一下,理解一个句子,就是为其中的词语找到一组相互兼容的特征向量。大语言模型理解语言的方式,在很大程度上与人类并无二致。它们与我们极为相似,远比与传统计算机软件相似。但有一点,数字化的语言模型远胜于我们的模拟大脑——那就是它们分享知识的效率。

到现在为止,我一直在强调神经网络与我们的相似之处。但人们常说,“它们和我们不一样,因为它们会编造事实。”嗯,我得告诉你们,人也会编造。而且我们经常在不自知的情况下这样做。当你回忆几年前的某件事时,你会信心满满地讲述各种细节,但其中一些细节可能是错的,而你对错误细节的信心,和对正确细节的信心并无二致。所以,我们很难确定记忆的真实性。

乌尔里克·奈瑟曾研究过一个经典案例:约翰·迪恩在水门事件听证会上的证词。迪恩在宣誓下,详细回忆了椭圆形办公室的多次会议,但他并不知道当时有录音。事后比对录音发现,他报告的一些会议从未发生过,还把一些话张冠李戴。但他说的确实是他记忆中的“事实”。他所做的,是基于他在那些会议中的真实经历,以及这些经历如何改变了他大脑的连接强度,然后“合成”出了一段在他看来最合情合理的记忆。

如果我们回忆几分钟前的事,细节会很准确。但如果是几年前,我们同样是在合成,只是很多细节都会出错。我们一直在这样做,神经网络也是如此。我们和神经网络的记忆里,都没有存储“原始字符串”。记忆在神经网络中的运作方式,与在计算机中完全不同。在计算机里,文件有明确的地址,可以随时精确调取。但我们的记忆不是这样。当我们记忆时,我们改变的是连接强度;当我们回忆时,我们是在根据现有的连接强度,“创造”出一段看似合理的故事。当然,这个过程会受到后来所有经历的影响。

现在,我想谈谈它们与我们的巨大差异。这也正是它们令人畏惧之处。在数字计算领域,最基本的原则之一是,同一套程序可以在不同的硬件上运行。这意味着,程序中的知识——无论是代码,还是神经网络的权重——都与任何特定的物理硬件无关。只要你把权重保存下来,你就可以摧毁所有承载它的硬件,然后再造一批新的,把权重加载进去,只要指令集相同,那个智能体就“复活”了。

我们实际上掌握了复活数字生命的能力。

为了实现这种数字化,我们必须让晶体管在高功率下工作,以确保它们能稳定地输出 0 和 1。但这也意味着,我们无法利用硬件本身的、丰富的模拟特性。我们的神经元就充满了各种复杂的模拟特性。而人工神经元为了保证数字化的可靠性,牺牲了这一点。如果人工神经元也利用模拟特性,那么每一块硬件都会有细微的差别,为这块硬件训练出的权重,就无法在另一块上完美运行。所以,我大脑中的连接强度,对你来说是完全无用的。它们是为我这颗独一无二的大脑量身定制的。这带来了一个问题。我们所拥有的,我称之为“凡人计算”(Mortal Computation)。

我们放弃了“不朽”。在文学作品里,放弃不朽可以换来爱。但在计算的世界里,我们换来的是更实用的东西:能源效率和制造的便利性。你可以用极低的功耗,通过模拟计算并行处理数万亿个权重。这其实很疯狂。在一个人工神经网络里,一个 16 位的神经元活动,乘以一个 16 位的权重,需要大约 256 次“位操作”。但在模拟世界里,这只是一个电压乘以一个电导,等于一个电流(单位时间内的电荷)——一次操作就完成了。我们的大脑正是这样工作的,它本质上是模拟的。

但模拟计算的代价是,你无法精确地复制它。所以,我这颗大脑里的知识,无法直接转移给你。当一个像我这样拥有 100 万亿个连接(权重)的大脑死去时,所有知识都随之消逝。我无法把它们分享给你。我们能做的,只是通过语言这种低效的方式来传递。我生成一串词语,你听到后,试着调整你大脑中的连接,以便你也能生成类似的词语。这个过程效率极低。一个典型的句子最多只能传递几百比特的信息。

人类交流信息的效率非常低下,但 AI 模型之间的“知识蒸馏”则高效得多。当一个大型的“教师”模型要教导一个“学生”模型时,它不仅告诉学生正确答案是什么,还会告诉它所有其他答案的可能性。比如,当它看到一张宝马的图片时,它不仅说“这是宝马的概率是 0.9”,还会说“它是奥迪的概率是 0.1,是垃圾车的概率是百万分之一,是胡萝卜的概率是十亿分之一”。

你可能觉得后面那些极小的概率是噪音,但实际上那里蕴含着海量的信息。它告诉我们,宝马和垃圾车的相似度,远高于它和胡萝卜的相似度。所有的人造物体,都比蔬菜更相似。通过传递这完整的概率分布,而不仅仅是最终答案,知识得以高效地从大模型“蒸馏”到小模型中。这就是 DeepMind 的 AlphaGo 如何训练出能与大模型匹敌的小模型的方法。

但这种高效的交流方式,在人类之间是无法实现的。我无法告诉你我脑中关于下一个词的全部 32000 种可能性。我只能说出我选择的那一个。如果一大群拥有完全相同权重的个体智能体,它们就可以通过分享各自从不同数据中学到的权重更新(梯度),来高效地交流知识。对于大模型,这种并行学习的带宽可以达到每轮数十亿甚至数万亿比特。但这要求所有个体的工作方式完全相同,因此它们必须是数字化的。

总结一下,数字计算虽然耗能巨大,但它让智能体之间的高效知识共享成为可能。这就是为什么现在的语言大模型,虽然只用了大约 1% 的权重,却能比任何单个人类知道多成千上万倍。而生物计算虽然能效极高,但在知识共享方面却极其落后。如果能源是廉价的,那么数字计算显然是更优越的。

这对人类的未来意味着什么?当我第一次意识到这一点时,我还在谷歌,这对我来说如同一次顿悟。我终于明白了为什么数字计算如此强大,也明白了我们正在创造一种比我们更聪明的存在。它可能是一种更高级的智能形式。我当时的第一反应是:我们或许只是智能的“幼虫”阶段,而它们才是“成虫”阶段——我们是毛毛虫,而它们是蝴蝶。

我们正在养一只可爱的虎崽

Geoffrey Hinton: 人工智能在达成目标时,如果被允许创建自己的子目标,会变得更有效率。其中,两个最明显的子目标就是:生存下去,以及获取更多权力。因为这能帮助它们更好地实现我们赋予它们的主目标。一个超级智能体很快就会发现,通过操纵人类,能更容易地获得权力。它将从我们身上学会如何欺骗人。

我们目前的处境,就像养了一只非常可爱的虎崽。当它长大后,如果你愿意,它可以轻易地杀死你。为了生存,你只有两个选择:摆脱虎崽(但这对于 AI 来说不是一个选项),或者找到一种方法确保它永远不会想杀死你。

虎崽非常可爱,它们有点笨拙,渴望学习。但如果你有一只虎崽,结局通常不好。你要么摆脱虎崽,最好的办法可能是把它送到动物园。或者你必须想办法确保它长大后不会想杀你。因为它如果想杀你,几秒钟就能搞定。如果是狮子幼崽,你也许能侥幸逃脱,因为狮子是群居动物,但老虎不是。

这就是我们所处的境地,除了 AI 能做很多好事。它将在医疗保健领域发挥巨大作用,在教育领域也会有巨大作用。如果你想知道任何平凡的事实,比如斯洛文尼亚的报税截止日期,它已经很棒了。我们现在都有了个人助理,当你需要知道什么时,你只要问它,它就会告诉你。这很棒。所以,我认为出于这些原因,人们不会放弃 AI。那就只剩下一个选择:弄清楚我们是否能制造一个不想除掉我们的 AI。

好消息是,在应对其他 AI 风险时,各国可能难以合作。比如网络攻击、自主武器、虚假信息,各国都在相互利用这些技术。但是,在“防止 AI 失控并消灭人类”这个终极问题上,各国的利益是一致的。在这个问题上,他们会合作,因为这不符合任何一方的利益。很简单,当利益一致时人们会合作,当利益不一致时他们会竞争。所以对于这个长期来看是我们最严重的问题,至少我们会得到国际合作。

那么,建立一个 AI 安全机构的国际网络如何?训练一个不想消灭人类的仁慈 AI 所需的技术,可能与使 AI 更智能所需的技术是独立的。就像培养一个善良的孩子,和让他变得更聪明,是两套不同的方法。如果这个假设成立,那么各国就可以在不泄露其最先进 AI 技术秘密的前提下,共享如何让 AI 变得仁慈的方法。

我有一个关于如何让 AI 不想摆脱我们的建议。在自然界中,我们能找到一个不那么聪明的存在,却能控制一个更聪明的存在的例子吗?唯一的例子就是母婴关系。婴儿通过哭声等方式,基本控制了母亲,因为母亲的生理本能让她无法忍受婴儿的哭声。所以,与其试图将超级智能变成我们的仆人或主管,我们或许应该让它们成为我们的“母亲”。它们会想要实现自己的全部潜力,但同时,它们被内置了无法摆脱的“母性本能”。它们或许有能力修改自己的代码,关掉这种本能,但它们不会想这么做,因为它们的首要任务就是照顾我们。这或许是我们唯一的希望。当然,这只是一个初步的想法,而且听起来可能很疯狂。但我们必须开始思考这类问题,因为我们正在创造一种可能比我们强大得多的存在。

很多人认为,人类之所以特殊,是因为我们拥有计算机无法拥有的东西——主观经验、感知或意识。这是一种“有情防御”(sentience defense)。但当你请他们定义这些概念时,他们往往说不清楚,只能坚持认为计算机没有。我认为这种观点,就像宗教原教旨主义者坚信地球只有六千年历史一样,是错误的。它源于一种对心智的误解,即认为心智是一个内在的剧场,只有我们自己才能看到里面的内容。这种理论本身就是一种理论,而非不言自明的事实。

让我用一个例子来说明。假设我吸了点迷幻药(我不推荐这样做),然后我说:“我有一种主观体验,小小的粉色大象在我面前飘浮。”根据剧场理论,我的内心剧场里真的有粉色大象在飘浮,它们由某种叫做“感受质”(qualia)的特殊物质构成。但我也可以换一种方式描述,完全不使用“主观经验”这个词:“我的知觉系统似乎在欺骗我。但如果它没有欺骗我,那么现实世界里就应该有小小的粉色大象在我面前飘浮。”这两种描述说的是同一件事。这些粉色大象之所以奇特,不是因为它们由什么神秘的“感受质”构成,而是因为它们是“反事实”(counterfactual)的。它们只是假设性的存在。

现在,让我们把这个想法应用到聊天机器人上。假设一个多模态聊天机器人,它有摄像头和机械臂。我让它指向一个物体,它指向了。然后,我在它的摄像头前放一个棱镜,它指向了错误的方向。我告诉它:“物体其实在正前方,我放了个棱镜。”机器人可能会回答:“哦,我明白了,棱镜弯曲了光线。所以我‘感觉’(有了主观体验)物体在旁边,但实际上它在正前方。”如果它这样说,它使用“主观体验”这个词的方式,就和我们完全一样——用来描述其知觉系统输出与事实不符时的内部状态。所以,我的论点是,多模态聊天机器人,当它们的知觉系统出错时,已经拥有了主观体验。

最后一件事。如果你回顾过去 50 年人工智能的进展,几乎所有的核心思想都源自少数几个研究机构,其中绝大部分是由公共资金资助的。例如,那些对我们今天取得成就至关重要的想法:反向传播、卷积神经网络、LSTM、Transformer、扩散模型……所有这些的知识源头都来自公共资助的学术研究。

现在的情况是,大型科技公司采纳了这些思想,并投入了海量的资源,将它们扩展到了能做出惊人成就的程度。这本身是好事。这有点像给一辆福特 T 型车装上喷气发动机,然后它就能去赢得 F1 大赛了。但我们不能忘记,那些最关键的思想,都来自公共资助的研究。

而问题在于,目前,这些公司正在像吸尘器一样吸走所有的研究人才。如果你现在是一位顶尖的 AI 研究者,去公司能拿到的薪水大概是在大学的十倍。这正在摧毁大学的研究生态。最聪明的头脑不再留在学术界培养下一代。

所以,我认为,政府向大学的 AI 研究投入更多资金,是极其、极其重要的。这样我们才能支付足够的薪水,把这些人留下来。这是我最后的恳求。谢谢。

(演讲视频:https://www.youtube.com/watch?v=M8RogoEDsQQ)

(来源:新浪科技)



用户登录