AI这场仗,蚂蚁决定这么打
5月27日下午16点多,接任蚂蚁集团CEO仅87天的韩歆毅,穿着黄色短袖来到杭州蚂蚁A空间正进行的“蚂蚁黑客松”比赛,并坐在前排台阶上仔细聆听。今年3月,获清华大学经济学硕士学位的韩歆毅升任蚂蚁集团CEO。
支付宝双飞轮、AI First和加速全球化是蚂蚁集团的三大战略。事实上,蚂蚁和其他互联网公司一样,近两年一直在 AI 领域进行投入。去年蚂蚁20周年时候,蚂蚁集团董事长井贤栋宣布,未来20年,蚂蚁要做一家科技驱动、创新驱动的公司。
其中,在AI First战略下,蚂蚁推出了金融、医疗、生活服务三款AI应用,蚂蚁内部业务也做了很多变革,支付宝、蚂蚁国际等核心业务加速AI化,蚂蚁内部也成立了通用人工智能(AGI)部门,开源2900亿参数规模的百灵大模型,引发关注。
韩歆毅在27日下午的内部技术日活动上首次详解蚂蚁AI战略。
他用时三十多分钟,全面清晰谈未来蚂蚁的AI战略布局。在韩歆毅看来,中国 AI 大模型赛道竞争激烈,蚂蚁将聚焦AI应用侧,利用AI基座大模型技术做更强的技术服务能力。
“今天,我们永远是在AI技术突破的边界上做一款PMF产品,如果技术路线不收敛,产品很难突破;技术路线收敛了,我们就敢于往里去投、去砸。大家说你聚焦AI应用,还要不要做基础大模型,年初讨论的时候我们答案非常坚决,一定要,因为如果基于AI做服务和应用,就像训练一个人去做所有的事,追求智能上限,会让这个人更加聪明,能够做更多、更好的服务。我们很坚定去探索AGI、探索智能上限。”韩歆毅称,未来,AI 时代将会重新定义一切。
蚂蚁集团CEO韩歆毅
即将开源两款:比肩DeepSeek-V3模型和百亿多模态模型
对于AI大模型领域来说,蚂蚁最重磅的消息无疑是今年3月百灵大模型团队(Ling Team)发布的两款MoE开源大模型论文。
今年3月,蚂蚁百灵大模型团队开源2个MoE架构的大语言模型Ling-lite(0220版本)和Ling-plus。
其中,Ling-lite参数规模168亿(激活参数27.5亿),Ling-plus基座模型参数规模高达2900亿(激活参数288亿),并且在多个算力平台(包括非Hopper架构的国产算力)进行训练,预训练阶段将计算成本降低约20%,每1万亿token成本达508万元,最终实现行业头部模型水平的性能表现,并验证了300B尺寸的SOTA MoE大语言模型在非高端算力平台上训练的可行性。
同时,蚂蚁强化学习AReaL团队还开源了AReaL-boba,可用128张H800 GPU 在1天训练完成SOTA 1.5B推理模型训练,256张H800 GPU 2天内完成SOTA 7B推理模型训练。
过去几个月,蚂蚁百灵大模型团队进行了迭代,Ling-lite升级到了1.5版本,相比上一代新模型的推理能力有了显著提升,同尺寸MoE SOTA,仅用2.75B激活计算可对标10B内SOTA dense模型。Ling-lite-1.5采用分层语料预训练策略和需求驱动的执行优化体系,以更少的语料和更高的质量,性能超过同尺寸下SOTA模型,大幅提升数学、代码等推理能力。
5月27日举行的第十届蚂蚁技术日上,蚂蚁百灵大模型团队宣布,即将逐步开源百亿参数规模的多模态模型Ming系列Ming-lite-omni。
具体来说,这是一款以统一架构集成多模态理解、生成和编辑能力的模型,支持将理解和生成模型合在一起调用,也可以单独完成理解和生成任务,带来原生全模态交互体验。
Ming-lite-omni主要承袭了5月初开源的Ming-lite-omni-preview和Ming-lite-uni这2款模型的能力,在此基础上做了更为系统的整合优化。
Ming-lite-omni基于Ling-lite-1.5,MoE模块新增了模态特定路由以缓解模态冲突、增强模态间协同,使得音、视、图、文等模态能够有效统一在一个模型中。同时在图像、语音生成与理解统一方面侧重优化,突破理解与生成相互冲突的难题。至此,Ming-lite-omni实现了模态统一处理,以及多模态理解与生成在一个模型上的统一,可以处理音频、视频、图像和文本模态的任意组合作为输入,生成与音频、图像或文本输出交织的多模态输出,从而实现先进的实时的全模态交互体验。
团队表示,“我们的目标是逐步开源Ming系列多模态模型,这将营造一个协作环境,让研究人员和开发者能够在这些模型的基础上进行构建和扩展,从而推动 AI 应用的创新。我们希望通过与社区的合作,逐步加速Ming系列模型开发,推进开发更先进、更实用的 AI 系统,以应对复杂的现实问题。”
蚂蚁百灵大模型负责人周俊(花名:西亭)表示,新开源的Ming-lite-omni模型有几个值得关注的创新点:一是真正把生成和理解模型放到一个模型;二是真正意义上的全模态输入和输出,都支持音视频、图文多种形态;三是真正是以MoE为架构的模型,中间没有提供其他东西,交互性较强。
蚂蚁百灵多模态大模型负责人陈景东(景东)向笔者进一步指出,目前更多开源的是必要的代码,开源的更多作用是希望大家可以把Ming系列模型能够用好。
目前来看,包括蚂蚁、腾讯在内的多家AI大模型团队认为,多模态模型正在走向MoE架构的“全模态”模型。包括Seed1.5-VL和Qwen2.5-Omni为代表的模型现已支持图像、视频、语音、文本及其任意组合的理解,而以Kimi-VL为代表支持MoE架构;但技术挑战上,支持音、视、图、文全模态交互的公开单模型非常少见,并且图像和语音的理解与生成统一模型鲜有出现,且理解和生成效果难以平衡。
阿里集团副总裁许主洪认为,当下多模态大模型的一大演进趋势,正是用统一的框架做理解和生成,这一领域发展尚处于初级阶段,需要实践验证。而今日蚂蚁开源的Ming-lite-omni,正是这一领域的代表性实践。
同时,蚂蚁团队还宣布,百灵大模型即将开源一款Ling-max模型,模型规模和性能与DeepSeek-V3“满血版”比肩,追寻跟V3差不多的版本进行开源,让更多人基于百灵版本上面调用各式各样的能力。
截至目前,蚂蚁逐步形成两类百灵基础模型路线:MoE语言大模型Ling-Series/推理模型Ring-Series;原生全模态大模型Ming-Series。
除了模型更新,蚂蚁三大AI管家应用方面也有新进展,旗下AI健康管家不久后将上线新版本。
据悉,今年初蚂蚁集团宣布完成收购好大夫之后,3月首次对外公布了以蚂蚁医疗大模型为核心的“一体三端(医疗机构、医生、用户)”的AI医疗布局,成为应用场景与行业共建最深的专业大模型之一。据悉,其面向用户端的应用产品AI健康管家,从去年下半年发布以来,通过高质量数据资源、专业标注团队等多方面优化模型,在AI就医助理、AI健康咨询等方面表现出色,充当用户个人日常健康管理与就医咨询的助理角色,上线半年服务超4000万用户。而这一AI应用产品即将上线新版本,迎来新的产品功能迭代突破。
对于内部AI产品使用百灵大模型情况,西亭对笔者表示,站在基础大模型角度看,之所以开源这么多基础模型,主要是不想让大模型成为某些公司的专属,通过将蚂蚁更多探索的AI技术公布到开源社区,成为推动大模型往前发展的重要起点。今天从业务和应用角度来说,百灵不会强行做一个非常绑定,因为当前模型还没有达到AGI能力,也没有成为社会必需品,所以行业和基础模型两方会持续推进,不会有那么强的耦合。
“另外,如果不谈技术本身,我更加期待我们合作伙伴,纯粹是因为百灵技术做得好而选用我们,而不是别的应用连接使用百灵模型,这是我们对内和对外的一个非常关键因素。我们希望做的东西能够得到(开源)社区的认可,并且与社区推动AI技术进步。这是我们的观点。”西亭称,AGI仍处于早前阶段,团队相信通过自己的努力、模型能力进步后,会在合适的时间通过内部、外部使用它。
国内AI竞争加剧,蚂蚁发力应用
自2025年起,全球AI大模型市场“内卷”加剧。开源模型DeepSeek引发全球讨论,基础大模型并未如预期一样放缓迭代,除了DeepSeek之外的AI行业Super App超级应用也未出现。
因此,国内外科技大厂都在“内卷”模型迭代:OpenAI发布GPT-4.5和o3;Gemini发布2.5 Pro版本;腾讯混元升级快思考模型混元TurboS、深度思考模型混元T1,并发布视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice;字节跳动旗下火山引擎发布豆包·视频生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型,并升级豆包·音乐模型等。
去年第四季度国内有49个大模型更新发布,到今年一季度这一数字增长至55个,最多的时候一周有8个模型。大模型迭代速度越来越快,模型能力越来越强。正如李彦宏所说“大模型厂商卷生卷死。”
所以,对于AI这场战役来说,企业如何利用这些强大模型,把AI应用做好,让更多人体验到AI技术能力,这似乎成为未来的关键点,而国内科技大厂拥有非常强的基本盘产品,并且拥有流量、资源投入以及人才资源,将是国内AI“下半场”竞争的核心参与者。
“跟很多创业公司相比,我们的优势不是资源,而是人才,怎么把我们的人才聚集到一起,其实靠的是协作。”韩歆毅表示,AI这件事很难,当前蚂蚁是在与全球最顶级的AI团队竞争,而且坦白说,这上面人家不光是跑得比我们早,也跑得比我们快。因此,对于蚂蚁来说,目标并不是做一家全球最领先的大模型公司,而是依然聚焦于应用上,仍希望智能上限的探索使得AI应用层面有突破,“至少在某几个领域我们要领先。”
展望未来,韩歆毅首次详细阐述蚂蚁新的AI First战略:
- 三大AI应用服务——AI金融管家、AI健康管家、AI生活管家;
- 四大技术探索——百灵基础大模型、AI世界的支付与基础能力、科技产业化、开源与开放;
- 两大行业探索领域——AI 与物理世界融合(具身智能)、区块链。
谈到基础模型的探索,韩歆毅表示,过去几个月蚂蚁团队投入的探索力量和更多突破,其实在某些方向已具备全球一定的领先地位,但这个领先还是偏单点。今天我们要全力以赴,追求智能上限,并且不断开源开放。另一方面,未来所有应用随着AI世界变得更加多样化,蚂蚁的机会在于支付,AI世界的支付可能与今天完全不一样,因此,蚂蚁需要提供AI世界的支付与基础能力。
对于具身智能的探索,韩歆毅指出,这是一个面向未来的开放式探索。今年蚂蚁成立了灵波科技,希望探索AI与物理世界的融合,未来还将与哈啰一起探索自动驾驶。
“人在相当长的时间内,不太可能回到我们的科幻电影中,有一个养生舱躺进去接上我们的虚拟世界、宇宙里面,这个短期内不太可能发生,但至少相当长的时间内,人还是活在现实世界中,现实世界和数字AI世界会同时并存,而我们希望帮助大家解决现实AI世界问题,这就是为什么我们去探索具身智能、智能驾驶等。”韩歆毅称。
韩歆毅表示,如果往前看,蚂蚁AI First战略是一个“顶层框架型”的想法,还有一些非常具象的业务和策略依然在探索、摸索过程中,因此,整个过程中,无论是解决当下的业务的具体问题,还是蚂蚁面向未来的探索,其实都需要技术人员的创新与突破。“因为技术是我们产品、业务快速奔跑的核心能力和坚强后盾。”
韩歆毅强调,蚂蚁希望真正给到用户、合作伙伴一个革命性、代际差体验、核心的竞争优势,所以在面临当下AI技术探索、AI应用的战场上,我们要回到“黑客松”的精神,源于对技术的热爱。
“我们源于热爱,成于协同,最后我们终于创新,用创新的方式为蚂蚁未来的10年、科技的10年打出一片新的天地。”韩歆毅在演讲结尾称。(本文首发于钛媒体App,作者|林志佳)
(来源:钛媒体)