12 月 2-6日,亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。会上,亚马逊云科技发布了相当多东西,其中之一便是新的大模型系列 Nova。说实话,这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic,似乎没有必要再自起炉灶了。
(来源:机器之心)
亚马逊总裁兼 CEO 安迪・贾西(Andy Jassy)宣布 Nova 系列模型,包括 Micro、Lite、Pro 和 Premier 四个版本,其中后三者是多模态模型。
虽然事实上 Nova 并非亚马逊发布的第一款基础大模型 —— 这家科技巨头在 2023 年的 re:Invent 大会上就曾发布过 Titan 系列 AI 模型,但考虑到前段时间关于「Scaling Law 是否撞墙」的问题甚嚣尘上,很多人都认为继续耗费资源和时间来训练基础大模型并不划算,还不如基于已有的模型进行微调、再训练或推理时间优化。
那亚马逊云科技训练 Nova 就算是无用功了吗?并非如此。实际上,从 re:Invent 大会后一些研讨会上的讨论情况看,亚马逊云科技在基础模型上的投入并未受到「Scaling Law 撞墙论」的影响,依然认为基础大模型大有可为;同时,训练基础大模型对亚马逊云科技自身以及 AI 领域的创业者来说都具有巨大的潜在价值。这篇文章将告诉你为什么亚马逊云科技不可能放弃基础大模型,还会继续一路走下去。
Scaling Law 就算撞墙也无妨
基础大模型依然大有可为
Scaling Law 是否已经或将要撞墙?对这个问题的争论已经遍布整个学术界和产业界。毫不夸张地讲,这个问题的答案直接决定着 AI 领域的资源和资金流向。但到目前为止,即便这个问题已经引发许多业内大佬的争论,我们依然没能看到一个确切答案的苗头。
虽然关于「Scaling Law 是否撞墙」的争论纷纷扰扰,但刚刚发布 Nova 系列模型的亚马逊云科技显然并不受影响;不仅如此,他们还对基础大模型的前景非常乐观。亚马逊云科技大中华区产品部总经理陈晓建就表达了这样的观点,他说:「到今天为止,基础大模型还远远没有到非常成熟、已经不需要新的提供商入局的阶段,它其实还是在一个非常早期的阶段。」
事实上,恐怕不止亚马逊一家公司这么想,毕竟它并不是唯一仍在积极布局基础大模型的科技巨头。比如苹果就一直在研发规模不大的基础大模型,前些天还刚刚发布了一款多模态模型STIV;重金支持 OpenAI 的微软也没有放弃自家的大模型,更遑论谷歌和 Meta 了。在国内,字节跳动、阿里巴巴和腾讯等巨头也都有自己的基础大模型项目。陈晓建也说明了这一点:「在亚马逊云科技内部,我们有高度共识认为要做大模型。」
究其根本,目前关于 Scaling Law 是否撞墙的问题其实主要集中在数据上。前段时间有一项研究认为,如果 LLM 保持现在的发展势头,预计在 2028 年左右,已有的数据储量将被全部利用完;前些天 Ilya Sutskever 也表示数据就像是 AI 的化石燃料,迟早会消耗光:「我们已经达到了数据的峰值,未来不会再有更多数据。我们必须利用现有的数据,因为互联网只有一个。」
来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》
但实际上,公共互联网数据并不能完全代表所有数据。人类世界还有很多数据并未数字化或没有公开,包括大量古老的纸质文献、大量涉及机密或隐私的数据、许多物联网和传感器数据以及封闭的行业数据等。
此外,人类每一天都还在继续产生大量新数据 —— 虽然其中绝大部分都是低质量或重复的数据,但也不能否认,当任何一种新技术得到广泛应用,又会创生出大量新形势的高质量数据,而我们又正处于一个新技术迸发的时代,量子计算、生物技术、虚拟和混合现实、物联网…… 它们都有可能成为下一代 AI 的重要数据来源。
因此,就算基于公共互联网的数据 Scaling 撞墙了,基础大模型的发展也不会停滞,私有数据和新型数据有望继续创造新的可能性。
陈晓建也指出了这一点:「数据的价值是毫无疑问的。我们一直在强调,在这个大模型时代,合适的模型和平台只是其中一个部分,远远不是做大模型的全部。你的整个数据资产,你的数据基座才是你真正实现业务差异化的能力。」
此外,已有数据是否已被充分利用也是一个有待商榷的问题,毕竟我们不能保证现在的 token 化方案就是完美的,能够在不丢失任何信息的情况下完成对文本、视频、时间和空间等信息的编码。随着模型规模的扩大以及编码技术的进一步演进,基础大模型或许能从已有数据中发掘出新的养分,实现进一步的 Scaling。
当然,另一个重要的探索方向也不容忽视,即利用 AI 合成高质量数据来训练下一代 AI。
亚马逊云科技开源的一个使用 Amazon Bedrock 生成合成数据集的项目架构,项目地址:https://github.com/aws-samples/amazon-bedrock-synthetic-manufacturing-data-generator
总之,Scaling Law 撞墙论显然无法动摇亚马逊等科技巨头继续投入基础大模型的决心。事实情况可能刚好相反,它们不仅看到了基础模型目前的应用价值,还看到了未来通过技术进步和数据挖掘实现更大突破的机会。
在 re:Invent 大会上,亚马逊云科技发布了多款与数据相关的产品,包括可以连接多个外部数据源的 Kendra Index、让用户可以使用自己的私有数据的结构化数据检索能力、用于知识图谱的 GraphRAG 技术、用于非结构化数据的数据增强功能以及升级版的SageMaker(将数据、分析和 AI 整合到一起的服务)。陈晓建表示:「所有这些工具都是为了帮助大家更好地把自己的私有数据 —— 无论是结构化还是非结构化数据 —— 通过 Bedrock 平台更方便地跟大模型能力整合起来。」
下一代 Amazon SageMaker 概况,来自亚马逊云科技 re:Invent 2024
在「Scaling Law 是否撞墙」的争论中,亚马逊云科技一方面没有放弃基础大模型,另一方面也在积极探索其它有潜力的技术方向。比如,去年 11 月,亚马逊云科技就宣布为 Bedrock 的智能体(Agents)配备上了思维链(CoT)推理能力;此外,在今年的 re:Invent 大会上,亚马逊云科技还推出了一个名叫 Automated Reasoning checks 的服务,可通过自动推理减少大模型幻觉、检查提高对话式 AI 准确性。
毫无疑问,亚马逊云科技之所以投入大量资源来训练基础大模型,首先这肯定是对其自身有利的。
我们知道,创业公司或小公司往往缺乏像 OpenAI 或谷歌那样的资源,很难自己训练出满足自身业务的大模型,因此,面向企业(To B)的大模型有一个存在强烈需求的市场。目前,几乎所有的云服务商和大模型服务提供商都在努力争夺这一快速增长的市场的份额。亚马逊云科技,坐在云服务商的头把交椅上,自然不可能错过这块潜力无限的大蛋糕。
亚马逊云科技继续维持在云市场的领先地位,来自 Statista
从用户,尤其是创业者的角度来看,不论是计划自己训练模型的团队,还是希望基于现成模型部署应用的开发者,亚马逊云科技的基础模型都提供了一个有力的替代选项。亚马逊云科技中国区技术合作伙伴总监李奔也在研讨会上提到了这一点,他表示:「我们面对的客户有两种属性:一种是 Buyer 属性,一种是 Builder 属性。Builder 公司可能更喜欢用工具链自己去构建。但还有很多客户群是 Buyer 属性的,他们不大会去自己 build,他们更愿意直接购买好的应用产品来提升能力。」
作为用户,替代选项带来的好处显而易见,尤其是我们中国互联网用户,对此的感受可能尤为深刻。而亚马逊云科技的 Nova 系列可为创业者和小公司提供一个并不比其它竞争者差的替代选项,并且不同规模的版本还能满足不同层次的需求,降低了
关联资讯: