独家对话银河通用张直政:我们找到了VLA和世界模型的融合之路

2026年05月19日,20时29分15秒 科技新知 阅读 2 views 次

独家对话银河通用张直政:我们找到了VLA和世界模型的融合之路

“从加入银河到现在,除了吃饭睡觉,基本上都在工作。”说这话时,张直政抬手摸了摸鬓角,笑了笑,“多了一些白头发。”

5月的一个下午,在北京我们见到了银河通用机器人联合创始人兼大模型负责人张直政博士,他曾任微软研究院高级研究员,参与微软公司Copilot、Token Mixers、Dynamics 3让各式模型路线兼容并蓄,使不同具身数据各尽其用。65 Connected Spaces等多个大模型及相关产品研发,因其对人形机器人、具身智能等国家重要战略方向的突出贡献,2025年获评“北京市劳动模范”称号。

他说话风格犀利、直接,却又不失严谨,遇到模棱两可的问题时,喜欢先定义本质。这种习惯,大概源于长期坚守第一性原理训练出的思维方式。

“我在微软既做基模研究,也负责把基模变成大模型产品。”张直政回忆,“但越做越觉得,AI如果永远困在电脑里,这不是真正的AGI。把AI从数字世界释放到物理世界,让它在物理世界里感知、思考、行动、改变环境才是下一个阶段的挑战。”

2023年,恰逢王鹤刚创业,正在寻觅一个兼具研究背景和产品转化经验的人来主导大模型研发,通过中间人牵线,两人聊完一拍即合。

离开前,微软亚洲研究院院长问他:“加入一个刚成立的创业公司,明年的今天可能发不起工资,你真的想好了吗?”

“当一件事足够有意义,你又对它负主要责任时,就没有必要担心这件事情了。”张直政说。如今这家公司,已经成长为具身智能赛道的头部玩家。

这场对话,缘起于银河通用最新发布的技术LDA(Latent Dynamics Action Model)。这是一个在隐空间中统一世界模型与VLA的跨本体动作基础模型,首次在数据层面实现虚实共融、人机混合、质量参差、有无动作标签的数据统一有效利用。它真正做到了“让各式模型路线兼容并蓄,使不同具身数据各尽其用”。目前,该工作成果成功登顶今年仅有210篇录用的机器人顶会RSS,项目成果代码已全面开源。

对谈持续了一个多小时。从LDA的技术路线与落地挑战,到银河通用坚守初心的全栈思考;从具身行业的泡沫与“烧钱”真相,到那个万众期待的“具身GPT时刻”。

独家对话银河通用张直政:我们找到了VLA和世界模型的融合之路

银河通用机器人联合创始人兼大模型负责人张直政博士

以下为与张直政博士的对话全文,略有删减:

智客ZhiKer:LDA(Latent Dynamics Action)是终局的唯一解吗?

张直政:目前看是最有希望的解。

智客ZhiKer:VLA与世界模型技术路线分歧的终局,您是怎么思考的?

张直政:现在行业里很多人把VLA和世界模型当成两条独立甚至对立的技术路线,但我们不这么看。

VLA模型直接学习策略,世界模型侧重预测环境的状态转移对环境状态进行建模,LDA既学习“我该做什么”,又建模“环境会怎么变”,在一个统一的Latent Space里让二者协同训练、相互增益。

后续行业可以将LDA当作具身智能大模型的底层框架,再结合不同类型、各具特点的数据一层一层地把它Scaleup起来。

智客ZhiKer:在理解世界如何演化这件事上,LDA与李飞飞和LeCun的世界模型相比有什么区别?

张直政:李飞飞和LeCun的世界模型主要在回答“世界应该如何被表征、预测和生成”。更关注对于物理世界在投影空间中状态建模的三个问题,生成一致的世界、多模态输入输出、以及在给定动作或目标时预测世界下一状态。而策略学习仅是其下游任务,他们仅做了简单初步的验证,尚未将其作为核心研究目标来攻克。

LDA更进一步把问题落到具身智能上,在回答“世界演化如何直接服务于动作生成,并且如何利用全谱系具身数据规模化训练”,更侧重“我能采取哪些行动”以及“应输出何种动作才能达成预期目标”,世界的变化只是其中的一个训练子任务。

智客ZhiKer:LDA理解固定场景下世界如何演化,不需要理解一个泛用场景下世界如何演化?

张直政:不能这么说。在LDA模型框架下,我们对世界状态的预测需要做得更准确、更泛化、更具效率。

相较于他们仅要求的“预测准确”,具身领域世界模型的要求是在任务所需的信息上实现精准预测的同时通过该预测辅助动作输出。

我举个例子,比如在网球运动上。很多世界模型是无差别地预测整个环境的变化;而LDA会在此基础上做进行具有选择性的信息处理,当下应该关注球的运动轨迹,还是对方运动员的位置,需要根据任务目标筛选出与策略相关的动作及环境状态变化,并利用其预测结果辅助策略输出。

总结而言,非具身世界模型仅聚焦于如何实现精准预测,而具身世界模型不仅要关注预测准确性,还要明确任务目标导向下输出动作需要有选择性地预测和处理何种信息,这正是我们多出来的要求。

独家对话银河通用张直政:我们找到了VLA和世界模型的融合之路

智客ZhiKer:让模型同时理解“如何行动”和“世界如何演化”,这件事的难点在哪?

张直政:首先,模型对“如何行动”的理解属于策略学习范畴。其本质在于给定当前状态与任务目标,机器人应输出何种动作,才能让世界朝目标状态变化。

“世界如何演化”与这个问题紧密耦合,它关注的是在当前状态下(甚至可能不存在明确的任务目标),执行某个动作后未来会发生什么。

简单来说,前者对应“我能做什么”和“我应该做什么”的问题;而后者对应“环境会怎样变化”的问题,二者有不同的优化目标。

当这两个问题落到具身智能中时,就形成了深度耦合的关系。例如打网球,如果不建模环境变化、不预测球的轨迹,就无法接到球;但如果只建模环境变化,即便能接到球,也难以控制球,无法将球打向期望的落点。

由此可见,对于具身智能,这两个问题相互依存,既需要模型理解环境的变化规律,也需要明确通过何种动作能让环境产生期望的改变。

智客ZhiKer:四个任务在一个模型里如何协同?

张直政:我们需要设计一个统一的隐空间(Unified Latent Space),让这四个任务都能在该空间内被构建为统一的训练任务。这就是我们在LDA这个工作中提出的,将前向动力学(Forward Dynamics)、逆向动力学(Inverse Dynamics)、策略学习(Policy Learning)与视觉预测(Visual Prediction)这四个任务进行统一的核心思路。

独家对话银河通用张直政:我们找到了VLA和世界模型的融合之路

我们需要从数据应用形式以及模型对数据训练的吞吐效率角度出发,采用统一的架构,对这四个任务进行统一建模和训练。在该联合训练(Joint Training)的范式下,通过大数据驱动的方式,让模型理解环境中哪些变化与动作相关,哪些变化与动作无关。

例如,其中有两个较为相似的任务:一个是前向动力学(Forward Dynamics),即给定当前状态与当前执行的动作(Action),预测下一个状态的变化;另一个是第四个任务,即直接根据当前状态预测下一个状态的变化。

通过这两个任务的共同学习,我们就能明确环境中哪些变化与动作相关,哪些变化与动作无关。正是通过这样的方式,促进这四个任务产生协同效应(Synergy)。

智客ZhiKer:四合一的结构下,预训练的算力成本会有什么样的变化?

张直政:四合一并不意味着算力成本直接乘以4。

四个优化目标被统一进一个模型训练框架中,在初期阶段,由于需要学习和优化的目标增多,学习要求增加,算力消耗确实会对应上升。但当模型的基础能力和基础知识积累到足够扎实的程度后,学习新知识的边际成本便会显著降低。

这正是我们坚持研发基模的核心逻辑,通过前期的更多投入,最终实现后期的更大规模技能的低成本、快速学习。

智客ZhiKer:在这套框架下,失败的数据是否更重要?

张直政:以打网球为例,人会知道,球飞过来的时候,如果用力挥拍,球就会出界。人为什么会知道这种结果?要么是看过别人这么做,要么是自己亲身试过。

这些认知是以知识的形式存在于人的大脑中,也应该存在于模型里,这就要求我们从失败中学习,而不只是依赖成功的数据。而光看视频,人无法精准把握动作的力度,因此具有难度的具身任务不仅需要对应失败的视频数据,还需要对应失败的动作数据。

本质上,要让具身模型具备泛化能力,必须让其理解在给定任务目标和状态下,做动作A会产生什么结果、做动作B会带来什么变化、做动作C又会导致什么情况,然后再决定采用哪种动作。

智客ZhiKer:需要采集多少失败数据?

张直政:这取决于任务难度和所采集的数据是否具有代表性。如果采集到的失败案例足够有代表性,就不需要采集太多;反之,采集再多也没有意义。

智客ZhiKer:怎么定义具有代表性?

张直政:代表性就是能不能代表某一类失败的情况。比如没接到球,拍子举得过高和举得过低是两种不同的情形,这两种情况都得包含在训练数据分布中。

智客ZhiKer:在实际训练效果中,低质量或含噪声的数据以及缺乏动作标注的视频数据处于怎样的定位?

张直政:我们的核心思路是利用高质量动作数据进行策略的针对性学习,同时借助低质量数据开展环境状态转移的建模学习。

智客ZhiKer:这个技术路线,是否降低了行业对数据采集与数据标注的需求?

张直政:肯定是这样的。

过去很大程度上依赖高质量的成功数据,而现在我们发现,当加入有噪声、无标注甚至低质量的数据后,对成功数据的需求量也随之大幅降低。

智客ZhiKer:训练模型的数据主要来自于哪里?

张直政:银河通用从Day One就在构建五层全量数据金字塔(AstraData),五层结构层层咬合。

最底下一层是互联网数据,直接从互联网上下载。第四层是无本体素材(人类行为数据),不依赖机器人本体,通过可穿戴设备采集真实数据。第三层是多本体仿真合成数据,通过仿真来造大量可泛化、可控分布的物理真实数据,这也是我们投入大力气建壁垒的维度。第二层是真实遥操数据,用来做后训练,跟场景需求对齐。最顶层是真机自主运行数据,这个是跟策略耦合的,模型耦合硬件部署到真实场景后,哪些干不好的地方,我们把它专门找出来。

独家对话银河通用张直政:我们找到了VLA和世界模型的融合之路

无论行业外的技术范式在押注什么、投入什么,我们始终致力于将这座金字塔构建得愈发坚实,将每一层都打磨完善。

头部公司一个非常重要的能力,就是不为外界所动,想清楚需要什么,把它做实。

智客ZhiKer:LDA出来了后,对于具身的大规模商业化有什么意义?

张直政:缩短研发周期,降低商业化闭环的边际成本。

LDA具备少样本跨本体泛化能力,只需约1小时的后训练数据,就可以快速理解新硬件的运动学特性。这打破了以往机器人升级或改动硬件就需重新训练模型的困境。这种高效的适配能力,是模型从实验室走向零售门店、物流仓库等多元场景的基础。

我们已经把LDA的核心算法与代码体系全面开源,希望推动行业从封闭优化走向开放共建,这些通用数据处理和跨领域学习能力赋能行业的同时,会进一步反哺银河通用的全身全手通用基础模型银河星脑(AstraBrain)的基座能力提升。

具身智能要真正落地,早期必须有一家公司站出来,实现软硬件一体化布局,从头到尾打通全流程闭环。只有亲历并解决所有关键问题,才能将核心环节标准化、沉淀为工具,并开放给行业使用,最终推动整个产业向前发展。

如果没有这样一家公司,这个行业的发展将会十分缓慢。

智客ZhiKer:进工厂和家庭,你们内部的优先顺序是什么?

张直政:先进工厂,成为“生产力”;再进家庭,提供“服务力”。

智客ZhiKer:具身智能迎来GPT时刻的信号是什么?

张直政:我认为GPT时刻到来的依据有两点。

第一,能够将异构数据统一到模型训练中,并让它们产生协同效应,互为助力。

第二,当学习一个新的泛化维度时,无论是新硬件,还是新任务,所需的新数据量可以极大降低,甚至不再需要新数据。

智客ZhiKer:2026年至今,具身行业整体融资金额已超300亿元,您认为当前具身行业存在泡沫吗?

张直政:我个人认为,无法实现的目标才叫泡沫,能够实现的目标就不是泡沫,而是行业发展的动力。

如果给泡沫下个定义,它指的是行业期望达成的目标与当前技术水平之间的差距,这个差距也和时间相关。

举个例子,如果有人告诉你,今天他家的机器人还无法完成你想要的各类任务,但几个月后就能做到,你会觉得这是泡沫吗?显然不是。

可如果有人说,今天他家的机器人无法完成你想要的上门任务,但100年后或许可以,这一定是泡沫了。

事实上,所有行业都存在泡沫,并非只有具身行业如此。是不是泡沫,取决于是否有人真正推动技术进步,去戳破泡沫,将幻想转化为现实。

智客ZhiKer:您认为具身行业技术发展的速度,匹配的上估值增长的速度吗?

张直政:起码我们公司是完全匹配的。

从整个行业的视角来看,目前真正沉下心来挤掉泡沫、专注于达成目标的公司仍然占少数。大部分企业是因为行业热度驱动,然后讲述一些不完整、或浅显的故事来获取融资,这种现象确实存在。

智客ZhiKer:技术的飞速进步是支撑头部具身公司高估值的逻辑吗?

张直政:支撑头部具身智能公司的估值逻辑有两层。

第一层就是公司是不是在做实事,如世界模型一样,目标与行动契合。第二层是前沿研发与商业化落地的计划是不是有强相关性,能像齿轮一样咬合在一起。

智客ZhiKer:怎么判断一家具身智能公司是不是在做实事?

张直政:第一个逻辑是,有落地场景的优于真机演示,真机演示优于只能看视频的。

目前具身智能的宣传分三个阶段。第一阶段是演示Demo视频,成功率仅10%,只拍摄成功场景,也能剪辑成宣传视频。第二阶段是真机演示,机器人的各项功能直观呈现,成功或失败显露无遮。第三个阶段是商业化落地,实现真实场景应用。例如我们的太空舱项目、即时零售项目,以及工业场景搬运、分拣项目,都已经在长期、稳定地规模化运行。

第二个逻辑是,商业落地场景和技术路线是否一致。例如,某家公司声称在做大模型,但实际商业化落地并未采用大模型方案,仍在使用小模型及真机强化学习,这就意味着讲故事的技术与商业化进程是两条不相交的线。

我们公司在研发太空舱的过程中,最初采用的是模型与工程方案相结合的模式。随着技术的演进,逐步通过端到端的大模型实现了对整套系统的全面替代。这一突破就是我们所追求的前沿技术创新,它与商业化落地的技术路线高度一致,二者紧密耦合、相辅相成。

第一点可用来甄别企业的技术水平处在哪个阶段,第二个用于判断企业的研发与落地是否形成闭环,让技术研发与商业落地不再是两条松散的线,而构成可持续滚动的飞轮。

智客ZhiKer:具身智能公司最“烧钱”的是哪个环节?

张直政:首先是规模化采集数据并构建数据闭环,即在真实场景中部署应用,再将真实场景产生的数据回流至基础模型,从研发层面来看,这需要投入大量资金。

其次是软硬件耦合,实现硬件与软件适配,同时满足模型部署需求,且保持量产能力,这个过程同样需要高额资金投入。

智客ZhiKer:具身智能行业什么时候进去下半场?

张直政:如果上半场和下半场下一个定义的话,上半场需要头部具身智能公司针对某一个特定场景或业务,从头到尾跑通闭环。

最终,拥有基模和行业闭环能力具身智能公司不会超过3家。

下半场就会出现一堆做解决方案、做应用的公司,基于具身智能公司提供的基模能力、硬件能力,在新的场景里面做闭环验证。具身智能和自动驾驶行业非常不一样的点在于,自动驾驶只解决开车一个需求,但具身智能要解决各种各样的需求,工业、商业、家庭等等。

工业、零售等领域的部分场景应用进入下半场近在眼前了,而C端场景中对安全性、非结构性要求更高的应用需要更久。(作者|郭虹妘)

(来源:钛媒体)



用户登录