从L2到L3,VLA成为智能辅助驾驶“关键跳板”?
文 | 极智GeeTech
当AI具备自主意识,也就实现了从“能干活”到“会做事”的转变。
近日,Gemini家族迎来一个新成员——Gemini Robotics On-Device。这是谷歌DeepMind首个可以直接部署在机器人上的视觉-语言-动作模型(Vision-Language-Action,VLA)。该模型运行时无需依赖数据网络,可以完全在机器人设备本地离线运行,并在多种测试场景中实现了强大的视觉、语义和行为泛化能力,能理解自然语言指令,并完成拉开拉链、折叠衣物等高灵巧度任务。
作为机器智能领域的关键新范式,VLA不仅让机器人拥有了将语言意图、视觉感知与物理动作编织成连续决策流的能力,也成为当下辅助驾驶提升智能化水平的重要技术之一。
去年以来,谷歌、微软、Figure AI等海外公司以及银河通用、智元机器人、理想汽车、小鹏汽车等国内具身智能和车企均发布了自己的VLA模型,这项技术成为具身智能和智能辅助驾驶领域的关键性研究之一。
VLM走向VLA
VLA模型最早由DeepMind提出并应用在机器人领域,旨在解决“视觉-语言-动作”三者协同的智能体控制问题。
2023年7月,谷歌DeepMind推出了全球首个控制机器人的VLA模型——RT-2。相比传统的机器人模型只能支持少数的特定指令,RT-2借助于大语言模型强大的语言理解能力,可以直接和用户进行语言交互,并在接收摄像头的原始数据和语言指令后,直接输出控制信号,完成各种复杂的操作和各类任务。
VLA在机器人领域的成功,很快也应用到了自动驾驶领域。2024年10月底,谷歌旗下自动驾驶公司Waymo推出了一个基于端到端的自动驾驶多模态模型——EMMA。
EMMA建立在多模态大语言模型Gemini之上,将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中,包括规划者轨迹、感知目标和道路图元素,通过将所有非传感器输入(如导航指令和自车状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大型语言模型中的世界知识。
从技术路径看,VLA是继VLM(视觉-语言模型)之后的进化形态,被视为端到端大模型2.0——多模态机器学习模型。VLA融合视觉、语言和行动三种能力,将其统一在一个模型里,只输入到机器就可执行动作的端到端映射,从而赋予模型强大的3D空间理解、逻辑推理和行为生成能力,让自动驾驶能够感知、思考和适应环境。
在智能辅助驾驶领域,感知技术通常由雷达、激光雷达、摄像头等多种传感器负责感知,感知结果经过目标检测、语义分割、轨迹预测、行为规划等一系列模块处理,最后由控制器下发方向盘和油门等动作指令。整个流程虽条理清晰,却存在模块间误差累积、规则设计复杂且难以覆盖所有极端场景的短板。
VLA模型正是在此背景下应运而生,它舍弃了中间的手工设计算法,直接用统一的神经网络从多模态输入中学习最优控制策略,借助语言模型理解人类指令并生成可解释的决策过程,最后将多模态信息转化为具体的驾驶操作指令,从而简化了系统架构,提高了数据利用效率。
智能辅助驾驶关键跳板
今年,汽车行业的智驾之战明显比往年来得更加猛烈。比亚迪的天神之眼、吉利的千里浩瀚、奇瑞的猎鹰智驾,以及广汽的自动驾驶计划,这些主流车企的动向都说明了,如今的车圈已经是“得智驾者得天下”的时代了。
自2023年以来,智驾行业掀起BEV、端到端技术浪潮后,车企们正逐步将AI神经网络融入感知、规划、控制等环节。比起传统基于规则的方案,基于AI、数据驱动的“端到端”拥有更高能力天花板。
但在端到端模型之外,车企们还辅以了大语言模型、VLM模型等外挂,提供更强大的环境理解能力,从而提升智驾能力上限。
与此同时,VLA正在成为重要的一环。VLA模型拥有更高的场景推理能力与泛化能力,对于智能辅助驾驶技术的演进意义重大。从长远来看,在从L2级辅助驾驶向L4级自动驾驶的技术跃迁过程中,VLA有望成为关键跳板。
在提升汽车智能化方面,新势力车企最为激进。在NVIDIA GTC 2025大会上,理想汽车发布了新一代自动驾驶架构——MindVLA。它通过整合空间智能、语言智能和行为智能,赋予自动驾驶系统以3D空间理解能力、逻辑推理能力和行为生成能力,并计划于2026年量产应用。
在VLA之前,“端到端+VLM”一直是智驾行业主流技术方案。因为驾驶时需要多模态的感知交互系统,用户的视觉、听觉以及周围环境的变化,甚至个人情感的波动,都与驾驶行为密切相关,所以“端到端+VLM”的技术架构中,端到端系统负责处理感知、决策和执行的全过程,而VLM则作为辅助系统,提供对复杂交通场景的理解和语义解析,但两者相对独立。
比如理想“端到端+VLM”双系统架构方案,其基于丹尼尔·卡尼曼(Daniel Kahneman)在《思考,快与慢》中提出的人类两套思维系统理论,将端到端系统(相当于系统1)与VLM模型(相当于系统2)融合应用于自动驾驶技术方案中,赋予车端模型更高的性能上限和发展潜力。
其中,系统1即端到端模型,是一种直觉式、快速反应的机制,它直接从传感器输入(如摄像头和激光雷达数据)映射到行驶轨迹输出,无需中间过程,是One Model一体化的模型。系统2则是由一个22亿参数的VLM视觉语言大模型实现,它的输出给到系统1综合形成最终的驾驶决策。
而小鹏汽车将云端模型工厂划分为四个车间,依次进行模型的预训练、后训练、模型蒸馏以及车端部署。理想则选择了先进行视觉语言基座模型的预训练,随后进行模型蒸馏,最后通过驾驶场景数据进行后训练和强化学习。两种不同的技术路线带来了不同的训练成本与效率,正是这种差异使得两家车企在市场上形成了强烈的对比。
虽然“端到端+VLM”大幅提升了智驾水平,但仍有很多问题。比如,端到端和VLM要进行联合训练比较困难,此外还有对3D空间理解不够、驾驶知识和内存带宽不足、难以处理人类驾驶的多模态性等问题。
而VLA通过统一的大模型架构,将感知、决策、执行无缝串联,形成“图像输入-语义理解-类人决策-动作输出”的闭环,可以同步提高智驾的上限和下限,实现空间、行为和语言的统一。
在推理方面,VLA模型的能力要远高于“端到端+VLM”。VLA整合了VLM的感知能力和端到端模型的决策能力,还引入了“思维链”技术。这使得它具备了全局上下文理解与类人推理能力,能够在面对复杂的交通规则、潮汐车道、长时序推理等特殊场景时,像人类驾驶员一样进行思考和判断。
例如,在推理时长方面,传统的基于规则(rule-based)方案只能推理1秒钟的路况信息并做出决策控制;端到端1.0阶段的系统能够推理未来7秒的路况,而VLA模型则能够对几十秒的路况进行推理,显著提升了智能辅助驾驶系统的决策能力和适应性。
正因如此,VLA被业界认为是端到端2.0的主要技术形态。目前,VLA尚处于发展阶段,除DeepMind的RT-2外,还包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英伟达NaVILA等。这其中,Waymo的EMMA和Wayve的LINGO-2主要面向的是车载领域,RT-2、OpenVLA和NaVILA则主要面向机器人领域。
下一代辅助驾驶技术基石
VLA模型工作原理可以分为三个主要步骤:视觉感知、语言理解与决策生成、动作控制,并由多个关键模块支撑上述步骤,包括视觉编码器、语言编码器、跨模态融合模块和动作生成模块。
视觉编码器负责从图像或视频中提取高层次视觉特征,语言编码器则处理自然语言输入,跨模态融合模块将视觉和语言特征进行整合,而动作生成模块则根据融合后的信息生成车辆的控制指令。
在视觉感知阶段,车辆的摄像头、雷达等传感器就像是VLA模型的“眼睛”,它们持续收集车辆周围的视觉信息,包括道路状况、交通标志、其他车辆和行人的位置等。这些原始数据被输入到模型的视觉处理模块,该模块利用先进的深度学习算法,对图像进行特征提取和分析,将复杂的视觉场景转化为计算机能够理解的特征向量。
例如,它能够识别出前方的红色圆形交通信号灯,判断出旁边车辆的行驶速度和方向,以及检测到路边的行人正在靠近马路。
语言理解与决策生成阶段是VLA模型的“大脑”核心运作部分。当视觉信息被处理后,模型会结合语言指令和自身的知识库进行分析和推理。
如果乘客发出“在前方路口右转”的语音指令,VLA模型会首先理解这个语言信息,然后将其与当前的视觉感知信息进行融合。
它会分析前方路口的交通状况,如是否有车辆、行人,信号灯的状态等,同时考虑交通规则和安全因素,运用“思维链”技术进行类人推理,最终生成合理的驾驶决策。在这个例子中,模型可能会决定在确保安全的情况下,提前减速,打开右转向灯,并在合适的时机完成右转动作。
动作控制阶段则是VLA模型将决策转化为实际行动的过程。模型生成的驾驶决策,如加速、减速、转向等指令,会被发送到车辆的执行系统,就像是给车辆的各个“器官”下达操作命令。
执行系统根据这些指令,精确控制车辆的油门、刹车、方向盘等部件,实现车辆的安全行驶。例如,当模型决定减速时,执行系统会控制刹车系统,逐渐降低车速;当需要转向时,会精确调整方向盘的角度,确保车辆按照预定的轨迹行驶。
以在城市复杂路况下的驾驶场景为例,VLA模型的工作过程更加清晰。当车辆行驶在拥挤的市区街道时,道路上可能同时存在各种车辆、行人、自行车,还有随时变化的交通信号灯和复杂的交通标志。
VLA模型通过摄像头和雷达感知到这些信息后,会快速分析场景。如果遇到前方有行人正在过马路,同时交通信号灯即将变红,模型会理解这种复杂的情况,并根据语言指令和交通规则进行决策。它可能会决定立即减速停车,等待行人通过马路并且信号灯变为绿灯后,再继续行驶。
最重要的是,VLA的推理过程全程可求导,能够通过车载显示向用户解释驾驶逻辑,增强用户信任感。
有行业人士表示,VLA模型对智驾的演进意义重大,让端到端理解世界的能力更强后,在L2辅助驾驶到L4自动驾驶的飞跃中,VLA可能会成为下一代智能辅助驾驶技术的基石。
但短期内,VLA从“能用”到“好用”还面临两大难点。一是车端算力不足,比如理想车端双Orin-X芯片运行“端到端+VLM”算力已经比较吃紧。而VLA的模型结构更复杂,参数也会进一步扩大,对硬件算力和数据闭环的迭代能力要求就更高。
未来具备更强芯片整合能力和垂直整合能力的企业,有望在VLA技术的竞争中占据先发优势。目前行业头部竞争者如特斯拉、华为、小鹏、理想、Momenta等都在逐渐走向软硬一体,针对自研模型定制化开发更匹配的智驾芯片,可以做到最大程度的优化。
另一大挑战是如何将端到端与多模态大模型的数据与信息作深度融合。这考验着智驾团队的模型框架定义能力、模型快速迭代能力。
为了解决上述问题,也正在探索多种技术路径。如有通过引入可解释性模块或后验可视化工具,对决策过程进行透明化;还有利用Diffusion模型对轨迹生成进行优化,确保控制指令的平滑性与稳定性。同时,将VLA与传统规则引擎或模型预测控制(MPC)结合,以混合架构提高安全冗余和系统鲁棒性也成为热门方向。
随着大模型技术、边缘计算和车载硬件的持续进步,VLA有望在智能辅助驾驶领域扮演更加核心的角色,其不仅能为城市复杂道路提供更智能的驾驶方案,还可扩展至车队协同、远程遥控及人机交互等多种应用场景。
VLA模型引发的技术变革正在重塑智能辅助驾驶产业格局,这场变革的终局或许不是某条技术路线的完胜,而是催生出分层市场。当然,VLA是否能成为智能辅助驾驶的“最终归宿”目前尚难定论。从CNN到Transformer,再到VLM与VLA,技术迭代速度令人惊叹,未来新的突破或许已在酝酿。当软件定义汽车进入2.0时代,真正的较量才刚刚开始。
(来源:钛媒体)