原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」

2025年01月21日,18时05分33秒 OpenAI 阅读 41 views 次

下一代 AI 的发展,似乎遇到了难以逾越的瓶颈。

去年 12 月,OpenAIChatGPT 两周年期间连续发布了 12 天,我们期待的新一代大模型 GPT-5 却从头到尾没有踪影。

失望之后,随之而来的还有各路媒体的报道——各大人工智能实验室似乎同时在大型语言模型竞赛中撞了墙。

原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」

OpenAI 的「GPT-5」内部代号 Orion,已经进行了为期数月的后期训练,然而该模型发布经历了多次延迟。知情人士表示,Orion 至今仍未达到可发布水平,OpenAI 不太可能在最近推出该系统。与此同时,Anthropic 等其他公司的下一代模型也面临着同样的问题。

大型模型的训练可能需要花费数千万美元。由于系统的复杂性,模型的训练可能需要数月时间,除了 GPU 的需求暴增,甚至电力也成为了阻碍 AI 训练进行的瓶颈。数据是大模型面临的又一大挑战,生成式 AI 发展至今,我们距离耗尽全球所有可访问数据已经越来越近了。

为了克服这些挑战,研究人员正在把目光转向新的方向。

「2010 年代是扩展的时代,现在我们又回到了好奇与发现的时代。每个人都在寻找下一个目标,」OpenAI 前首席科学家 Ilya Sutskever 表示。「现在,找到正确的扩展方向比以往任何时候都更加重要。」

生成式 AI 的下个形态

正在浮出水面

其实,我们对 AI 的下个大方向并非毫无头绪。

原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」

2024 年 8 月,谷歌实验版的 Gemini 1.5 Pro 超越了 GPT-4o,宣告了大模型竞赛「逆袭」成功,如今不论是在消费端还在 AI 社区,人们都认为谷歌提出的技术最具颠覆性,已经重回到了领先梯队。

面对新一轮理论升级,Anthropic 等公司迅速跟进,OpenAI 则拿出了主打「复杂推理」的 o1 大模型,旨在专门解决难题。

国内企业也投身于新道路的探索。近日,商汤科技实现了原生融合模态训练上的实质性突破,发布了「日日新」融合大模型

生成式 AI 爆发后,多模态大模型早已成为人们追求的方向。然而,我们在很多应用中接触到的多模态模型并不能说是「完全体」。

模态融合(Multimodal Fusion)被认为是 AI 未来发展的必由之路。就像谷歌所认为的,只有从头开始的多模态才能构建出超越前代的先进模型。这意味着它天生地可以读取和输出不同模态内容,还具备强大的多模态推理能力和跨模态迁移能力。

原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」

图片来源:https://arxiv.org/abs/2312.11805

这是一个符合直觉的技术方向——只有让机器拥有对物理世界中多模态、多维度信息的感知,拥有了综合的理解,它们才能发展出类似于人类的分析、判断、正确决策能力。

在新范式下,你可以自然地与 AI 进行交流:发一段语音、添加一张图片、输入一些文本,甚至直接录短视频都行;同样的,输出也是自然的多模态形式。

商汤原生融合的多模态模型,打破了一直以来大语言模型、多模态大模型分立的行业局面,真正意义上迈向了模型一统。

对行业来说,大模型愈演愈烈。

对于大模型的 Scaling Laws,商汤也给出了自己的判断。林达华表示,当前利用互联网数据进行预训练的方法,确实很快就会到达瓶颈。但真实世界的数据并不仅限于互联网:工作时的 OA 流程,汽车驾驶时传感器记录的状态,科学研究时获得的数据等等,这些内容会比文字形式存在于互联网上的数据多出四到五个数量级。

想要利用好真实世界中的数据,就必须构建起结合多模态的 AI 模型,这就是商汤坚定投身多模态新方向的原因。

换言之,大模型早已不局限于「做题」了。商汤走通了原生融合模态的技术路径之后,未来已经出现了前所未有的想象空间。甚至在图像 + 文字输入之后,我们还可以期待整个空间结构的输入、机器人与 LLM 推理能力的高度结合,还有很多领域值得去拓展。

(来源:机器之心)

传送门:
SenseNova-5o 正式接口及接入方案:https://sensenova5o_doc.sensetime.com/introduction/intro.html
标签:


用户登录