谁说撞墙了?展望2025 Scaling law新叙事加速AI变革

2025年01月20日,19时31分58秒 OpenAI 阅读 59 views 次
我们正身处一场技术革命的历史开端,以 ChatGPT 为标志的这轮 AI 科技浪潮是算法和软件诞生以来人类科技最重要的技术变革,由此开启了以智能为核心的第四次工业革命。这次 AI 变革是由以 Scaling law 为底层逻辑的基础模型驱动,其整体的发展脉络由基础模型的技术逻辑主导。
阐述。
1. 通用人工智能 (AGI) 的四种路径
目视远方,才能更好理解我们身处的当下。实现通用人工智能 (AGI,这里也包含常说的超级人工智能)是 AI 的发展目标,利用 AI 算法达到甚至超过人类的智能水平。在之前,我们先从宏观逻辑分析 AGI 的可能实现路径。
第一条路径是大模型。
目前 AI 算法还是围绕着人类智能的逼近和模仿来开展。大模型就是利用复杂的深度神经网络对知识的压缩来逼近人类智能的隐函数,进而利用思维推理来挖掘智能本身,所以接下来基于基础模型的自学习算法和模型自迭代进化将是通过大模型实现 AGI 路径的核心。从这个角度来说,大模型的 AGI 迭代在 2024 年刚入正题,但是发展很快。
第二条路径是智能机器人。
人类和动物等生物智能体是在开放式环境中与周遭事物以及环境中的智能体交互反馈来学习智能。最接近这种智能学习的模式是在开放式环境中活动的智能机器人,特别是和人交互的机器人。所以消费级机器人的落地将是这种 AGI 模式的开启,机器人的自我学习和迭代算法也将是核心。
第三条路径是脑机。
根据第一性原理,直接获取人类思维模式的方式是读取大脑信号,人类目前的科技水平通过脑机接口来实现。目前脑机还处在非常早期,但是脑机接口将是人机协同非常重要的路径。
第四条路径是数字生命。
通过算法实现从微观尺度到宏观尺度生命过程机理的仿真,就可以直接解锁智能的奥秘,从而能创造出真正的超级智能。目前这个方向还在萌芽阶段。
2.2024 的 4 个关键进展
让我们先回望 2024,从年初的 Sora 开始,几乎每个月都有 AI 热点新闻出现,长文本、多模态、具身智能、编程助手、思维推理、Agentic System、大模型训练优化等,让人目不暇接。相比 2023 年 AI 进展集中在大语言模型上,2024 年可谓是百花齐放,无论是深度和广度都出现了飞跃。显然,即使没有 GPT-5 的发布,这仍然是 AI 技术大爆发的一年。而在这么多进展里,有四项进展值得重点关注。
2.1 视频生成
Sora 的出现意义重大,是视频生成领域的一个重要转折点。在 Sora 之前,行业对视频生成已多有研究,但只停留在学术研究层面,效果差强人意,没法达到商业化服务的水准。Sora 展示了利用 DiT 可扩展架构的有效性,吸引了全球同行们快速跟进,推动视频生成从学术研究到工业级应用的重大跨越,国内也出现了可灵、海螺、通义万相、混元、豆包等优秀的视频生成模型。
视频生成模型的突破意义不仅在于推动内容生产方式的变革,也在于展现了可扩展架构的生成模型在视觉方向的巨大潜力。自然语言数据是人类知识以文字形式的数字化记录,所以自然语言大模型是知识的压缩,可以通过大语言模型来逼近从而超越人类的智能。同样,图像 / 视频是对环境和物体的数字化,也包含知识本身的展现。例如,球体的下落是物理规律的呈现、投篮是人类操作技能的展现等。所以不仅仅大语言模型,视频大模型也是通往 AGI 的重要组成要素。随着图像 / 视频基础模型的性能提升,特别是 SOTA 级别开源模型的丰富,常见视觉任务大都会围绕生成式基础模型重新构建,大一统的视觉任务架构也会出现。另外,传统视觉相关的仿真也逐步会和视频生成模型深入融合,从而重塑新一代的仿真链路,例如世界模型可以看做是其中一个方向。而基于仿真和模拟的技术方向,例如机器人,也会因为视频生成模型的成熟发展速度大大加快。在一些垂直领域,例如医疗和微观组织研究等,数据缺乏的问题也会因为视频生成模型找到新的解决途径,从而加快相关领域的突破。
视频生成技术的快速迭代促进各类内容工具的涌现,例如达摩院推出寻光 AI 视频创作平台,用 AI 重塑视频工作流,释放行业创造力。
2.2 智能体 (Agent) 和系统
在 2023 年 AutoGPT 出现时,行业从业者就意识到基于大模型构建 Agent 应用的巨大潜力。下 AI 发展的三个基本逻辑,即 Scaling law、Transformer 架构 (泛指 Transformer-like 的架构) 和生成模型。这三个方面相互交织,我们逐项讨论下内在的原理和逻辑,便于把握 AI 发展的底层规律。
3.1 Scaling law 迈向纵深
Scaling law 是 GPT 等大语言模型快速发展的底层逻辑,更多的数据、更多的算力、更大的模型,得到更好的效果。Scaling law 也是 2024 年推动了 Sora 等视频生成模型的技术突破的逻辑遵循,利用更有利于规模化扩展的算法架构。虽然 Sora 并未开源或公开算法细节,但其技术报告公开了算法架构和技术路线,这使得领域内可以快速跟进,例如可灵。他们甚至实现比 Sora 更好的效果、更快的线上服务,再次在视频生成上验证了 Scaling law 的有效性。Scaling law 也在具身智能大模型上面初步得到验证,让大家看到了具身智能 GPT 时刻出现的希望。在医疗方向,Nature 刚刚发表了三篇和医疗基础模型相关的论文,标志着医疗 AI 在快速迈向基础模型驱动的 2.0 时代,也是 Scaling law 规律的体现。所以,Scaling law 不仅是大模型发展的底层规律,也是通向 AGI 的可靠路径之一。
过去一年关于 Scaling law 是否遇到天花板的讨论比较多,但其实,目前能够有足够多的资源和数据去触摸 Scaling law 天花板的公司,全世界没几家。因为首先需要足够强大的基础设施和计算资源,其次还需要足够多的训练数据。关于数据,一方面是现有的互联网相关数据,另一方面是合成数据 —— 合成数据非常重要,但是合成数据的质量能否用于有效训练,取决于基础模型的生成能力和合成数据的方法,截止到 2024 年,可能只有 GPT-4 等极少数模型能达到这个水平。所以,目前还不能给 Scaling law 下个遇到天花板的结论。
3.2 Scaling law 固定路径被打破
随着 Scaling law 的纵深发展,其发展的固定路径已经被打破!,他们用正常十分之一的算力达到目前大语言模型的 SOTA 性能。个人认为这个工作的出现标志着 GPT-1 以来基于 Scaling law 的固定迭代路径已经被打破了,是个模型架构和工程优化结合的突破性成果。由此也让领域内看到模型工程优化的高度,所以模型架构在芯片计算层的优化将会是大模型训练和推理的研发重点方向。由此路径深入迭代,将会把模型工程引向模型架构和芯片架构深度融合的类脑芯片方向,从而突破 Scaling law 的限制,把模型训练和推理带入下一个阶段。当然,这个方向需要时间探索。国内刚刚发布的 MiniMax-01 模型也是这类不错的工作。
除此之外,OpenAI o1 开启 Test/inference-time scaling law 的阶段。语言大模型可以看成是知识的压缩,那怎么利用知识产生更好的智能就是基于基础模型的思维推理必然发展的方向。思维推理的发展也从一维单链路 CoT 模式到基于像蒙特卡洛树搜索 MCTS 的系统化多维推理演化,从而构建更智能更体系化的思维模型。推理算法的发展也反过来影响基础模型的 Scaling law 路径,例如微软 rStar-Math 算法无需从大模型蒸馏也能用 60 块 A100 训练的 7B 模型在数学推理上媲美达到 OpenAI o1 性能。上海 AI 实验室的书生・浦语 3.0 的 InternLM3-8B-Instruct 模型通过提升数据质量和数据工程,只用 15% 的算力达到 SOTA 性能。过去半年这类工作有不少,就不一一列举。
总结来说,无论数据维度、模型尺寸维度、还是算力维度,Scaling law 在模型上的体现已经过了粗狂式的发展阶段,了技术方向,接下来,让我们展望 AI 的产业影响。人类有几个基本的特点:血肉之躯的能力限制,所以物理工具是必需品,而最极致的工具是物理化的人 —— 机器人;知识无法遗传,所以教育不可或缺;肉体衰老死亡,所以医疗是人类社会的刚需服务;活动受到物理环境的限制,所以数字仿真必将成为 AI 的基础设施。我们就聚焦在硬件、教育、医疗、和数字仿真这几个题目进行简要讨论。
4.1 智能硬件具备爆发条件
2024 年像谷歌的 Gemini、OpenAI 的 GPT 系列、阿里巴巴的通义 Qwen-VL、智谱的 GLM-Realtimes、和面壁智能的 “小钢炮” MiniCPM-o 2.6 端侧模型都在多模态和视觉理解能力上取得了显著进步。人类本来就是利用视觉、语言、听觉、触觉等不同模态的信息来进行和环境感知和交互的,所以多模态是人机交互的关键。多模态基础模型能力的成熟会促使两个方向的进步:一个就是数字智能体,也就是现在说的 Agent;一个是物理智能体,也就是包括机器人在内的智能硬件。所以按照技术演化的逻辑,2025 年智能硬件会迎来高速发展期。
在人机交互的信息媒介中,语言和语音是其中两个最重要的两个基础模态。对于语音,除了智能手机之外,智能耳机会是自然的人机交互的指令入口,所以会在 AI 驱动的智能硬件中占有核心的地位。国内字节和讯飞都在消费级智能耳机方向上率先发力。另外,轻量级的脑机接口设备也在 CES 2025 上出现,例如美国初创公司发布的 Omi 的 AI 可穿戴设备。这种类似的智能硬件虽然轻量,但是都是不同模态人机交互入口级别的智能硬件,值得关注。
另外一个大的方向就是机器人,刚才在具身智能章节中从技术的角度阐述了关于机器人的看法。但是从产业落地的角度去观察,是不同的路径。目前业内认为率先落地的是工业场景,如汽车总装线,这个场景下机器人的目标是替换高级技工并带来产能的提升。另外一个就是家庭智能玩具,它基于轻机器人本体路线,但带来多模态的人机交互。
和主流看法有点差异,我们认为对于未来机会的把握这两个都不是当下落地的理想路径。而二者的结合:一个低自由度,结构简单稳定,能够带来 “轻、静、快” 的物理交互,又能结合 AI 提供多模态感知交互的机器人,很可能会更早地形成可以持续的商业生态。在 2025 年,除了大家都熟知的人形机器人,我们更期待一款可落地的消费级机器人新品类出现。
4.2 医疗 2.0 时代开启
在 AlphaFold 荣获 2024 年诺贝尔奖后,几乎所有人都意识到了 AI 解决基础科学问题的巨大力量,AI for Science 已成为毋庸置疑的重要趋势。其中,生命科学和医疗是关乎人类福祉的方向。AlphaFold 发明人之一、DeepMind CEO Demis Hassabis 也预测人类有可能在未来十年内治愈大部分疾病。这一预测如果成为现实,那将是医药诞生以来的历史性进步。
在过去几个月里,Nature 正刊上接连发表了病理学基础模型 CHIEF、精准肿瘤学多模态基础模型 MUSK、人类细胞类型的转录基础模型 GET,还有 Nature Medicine 上解决医疗图像合成的生成基础模型 MINIM,多模态医疗基础模型 BioMedGPT 等。这些基础模型工作的接连出现,标志着医疗技术 2.0 时代的到来。医疗方向正在从针对单病种单类型的技术时代快速向基于基础模型加具体任务微调的大模型范式转换。另外,完整周期的大队列数据对于疾病治疗至关重要,但是获取完整队列数据非常困难而且周期很长。借助生成模型,有望解决医疗周期数据缺失的问题,这对医疗领域取得实质性进步意义重大。
达摩院在医疗 AI 方向成果显著,在 Nature Medicine 上发表了基于平扫 CT 影像的胰腺癌检测算法 DAMO PANDA,是业内首次借助平扫 CT 进行胰腺癌筛查的方法,为大规模低代价进行胰腺癌筛查开辟了新的路径。这项工作被斯坦福大学发布的 2024 年 AI 指数报告列为 “年度亮点研究”,是国内唯一入选的工作。目前达摩院正在进行中的多病种统一算法架构、医疗多模态基础模型和肿瘤动力学等相关研究,也有望在今年取得重要进展。
4.3 AI 驱动的教育
无论孔子时代的问答式教学、还是柏拉图时代开启的思辩,教育至今都延续老师和学生物理互动的模式。学生学业的高度很大程度上取决于老师水平的高低和资源的多少,因此,受限于不同地域和文明发达程度的不一,人类离教育普惠一直遥不可及。令人欣喜的是,这种状况要在 AI 时代终结了。
在谷歌的 Gemini 多模态模型和 OpenAI 的多模态模型发布会上,都不约而同地展示了多模态大模型在教育场景的应用示例,这足以说明 AI 公司对于利用 AI 技术解决教育问题的期待和重视程度。AI 将人类沉淀的知识压缩到模型中,从而利用记忆和组合生成可以创造出比人类更加智慧聪明的数字智能体。所以在不远的将来,利用多模态大模型的能力,虚拟老师的水平将会超过几乎所有的真实老师的水平,从而使教育提高到一个全新的高度。只要有可以运行 AI 软件的硬件终端,人人都可以获取最好的教育。这会在未来五年内发生,将是人类教育事业全新的开始。
但是教育本身也包含物理互动的过程,而且这是数字智能体没法完全取代的,所以教育方向将有适应 AI 时代的各种智能硬件出现。
4.4 数字仿真 2.0
2024 年对于 AI 发生的其中有一个转折就是算法到物理世界的转场。AI 为了更好地适配物理世界并实现落地,各类数字化仿真将会成为不可或缺的基础设施。世界模型就是其中一个备受关注的方向,还有现象级讨论的 Genesis 物理仿真平台等。但是这里谈到的数字仿真远不止现在学术界研究的世界模型覆盖的范畴,这是一个涵盖从微观尺度到宏观尺度的数字技术和物理世界映射的范式变化。
英伟达在数字仿真领域上进行了系统化的深入布局。NVIDIA Isaac、Omniverse 和 Cosmos 等平台正构建一个完整的仿真生态系统,重塑工业研发链路和范式。在 CES 2025 上,英伟达演示了在自动驾驶仿真、飞机制造、机器人研发以及工业场景的数字孪生等方面的应用,展现了广阔的前景。
不仅在工业场景,数字仿真在生命科学上也展现了巨大的潜力。2024 年 DeepMind 和哈佛大学在 Nature 上发表了由 AI 生成的数字生命体 —— 虚拟老鼠,使用命名为 MIMIC 的算法能够模拟啮齿动物的大脑活动和行为表现,在生物动力学方向取得重要突破。国内智源研究院提出了 BAAIWorm 天宝,实现了秀丽隐杆线虫的神经系统、身体 和环境的交互仿真。基于真实物理世界机理的生物动力学仿真,将会开启一个全新的生命科学研究范式,有着深远的意义。
在数字化时代,原则上几乎每个物理世界的场景都可以进行仿真。从核聚变研究到细胞活动模拟,从机器人研发到数字生命体建模,从机械动力学到生物动力学,从微观到宏观的自然界都将会在仿真系统中被重建。
5. 结语
这轮 AI 浪潮会把人类社会带入全新的智能时代,人类认知世界、改造世界的能力将得到空前的提高。可以预料到的是,三十年后我们将身处一个与现在完全不同的崭新世界。作为 AI 从业人员,我们非常荣幸可以参与这一历史进程,也希望本文能够为 AI 同仁探索未来提供一些启发。未尽之处,欢迎关注 “DAMO 开发者矩阵”,我们将在后续文章中持续探讨 AI 的前沿趋势与应用展望。
标签:


用户登录