当语言模型具备行动力:OpenClaw揭示的Agent化挑战与机遇 | 钛资本人工智能组
文 | 钛资本研究院
从2023年初ChatGPT引爆全球关注,到如今AI技术渗透到各行各业,我们正见证着一场深刻的范式转移。比尔·盖茨曾断言,“Agent将是未来计算机交互史上最大的革命”。当语言模型不再局限于文字对话,而是拥有了“数字手脚”,能够直接操控电脑、访问数据、调用工具,一个全新的“代理化”时代正在拉开序幕。
近期,开源项目OpenClaw的爆火,正是这一趋势的集中体现。它将大语言模型(LLM)从单纯的“思考者”转变为能够执行复杂任务的“行动派”,引发了业界对AI Agent(智能体)未来的无限遐想与深度思考。
近期钛资本邀请复旦大学计算与智能创新学院教授、国家级领军人才张奇进行分享,他兼任上海市智能信息处理重点实验室副主任,中国中文信息学会理事、CCF大模型论坛常务委员、CIPS大模型专家委员会委员、CIPS信息检索专委会常务委员。主要研究方向是自然语言处理和信息检索,聚焦大语言模型复杂推理和解释性分析等。在ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。在国际重要学术刊物和会议发表论文200余篇,获得美国授权专利4项,著有《自然语言处理导论》和《大规模语言模型:理论与实践》。主持人是钛资本董事总经理吴亚力,负责新一代信息技术方向,重点关注人工智能、智能硬件、半导体等产业领域。
从手工工作流到通用智能体:AI Agent的演进之路
AI Agent的概念并非始于大语言模型,早在90年代的学术界就已有相关探讨。然而,大模型的崛起为这一概念注入了全新的生命力。从2023年到2025年,AI Agent的发展路径清晰地展现了从“手工定制”到“通用智能”的演进。
在早期阶段(2023-2024年),受限于模型的编程和推理能力,完全自主规划的Agent成功率极低(可能不足10%)。业界的主流解决方案是手工定制的工作流平台,如以LangChain为代表的低代码/无代码平台。这些平台通过预定义的DAG(有向无环图)或状态机来编排任务,将复杂流程拆解为固定步骤。
然而,这种模式存在显著瓶颈。首先,流程设计复杂,普通用户难以驾驭,而专业用户为每个新场景定制流程又显得笨重低效。其次,灵活性差,固定的工作流难以应对开放、动态的真实世界任务。这些痛点限制了工作流自动化在企业应用中的推广。
随着模型能力,尤其是编程和推理能力的飞跃(得益于Cursor等工具提供的高质量数据飞轮),业界开始探索新的方向——通用智能体。以2025年现象级产品Manus为代表,其核心理念是“完全抛弃定制工作流”,将任务全权交给模型。用户只需输入指令,模型自主进行任务拆解(Plan)、调用工具(Action)、观察结果并进行反思(Observe & Reflect),形成一个动态的“感知-规划-执行”循环。
OpenClaw则在通用智能体的基础上,将AI的“行动力”从云端拉回到了用户的个人数字空间。如果说Manus是一个在云端为你工作的助理,那么OpenClaw更像是直接入驻你电脑的“贾维斯”。它被赋予了极高的本地权限,可以访问你的邮件、文件、聊天记录,甚至控制家中的IOT设备。这使得它的应用场景被极大扩展,从日程安排、设备控制到更复杂的任务,如“在网上订餐失败后,自动生成语音并通过电话完成预订”,真正让AI助手走入了现实。
OpenClaw的核心架构:插件化设计与Skill的模块化革命
OpenClaw的走红,不仅在于其宏大的愿景,更在于其精巧且富有扩展性的架构设计。其核心逻辑是“核心精简、边缘丰富”的插件化架构,主要包含以下几个核心模块:
Gateway/Routers(中央网关):作为整个系统的“大脑中枢和交通枢纽”,负责管理会话、调度Agent任务、维持与各个聊天渠道(如微信、飞书)的连接,并协调其他节点的能力。
Agent(智能体):这是执行任务的核心单元。它接收来自Gateway的任务,动用其“大脑”(大语言模型)进行规划和决策,利用“手脚”(Tools)和“专业知识”(Skills)来完成任务。
Channels(渠道适配器):充当“通信与翻译官”的角色,负责与不同消息渠道进行对接和消息格式转换。
Nodes(远程能力节点):作为“分布式触手”,扩展了主机的协作能力,例如连接摄像头或其他智能设备。
在这个架构中,一个关键的技术创新点是引入了Skill(技能) 的概念。在OpenClaw之前,大模型使用工具的方式主要是通过将大量的API定义直接塞入系统提示词(System Prompt)中。这种原始方式带来了两大难题:
上下文混乱:系统提示词中混杂着身份定义、操作流程和几十个工具的API描述,导致提示词臃肿(OpenClaw的System Prompt高达约14,000 token),维护困难,模型也难以精准理解。
复用性差:工具的定义与特定项目绑定,修改一个工具需要在多个项目中同步,极易产生版本漂移。
为了解决这些问题,Anthropic推出了Skill概念,并被OpenClaw采纳。Skill可以被理解为“员工手册+工具箱”的组合。
员工手册(SKILL.md):用自然语言编写的说明文档,告诉AI该技能的用途、适用场景、使用步骤和注意事项。
工具箱(可执行脚本&资源文件):提供完成任务所需的Python、JavaScript等脚本,以及可供查阅的参考文档或模板。
通过将工具封装成独立的Skill,OpenClaw实现了显著的改进:
上下文管理优化:系统提示词中不再包含每个工具的具体实现细节,只保留Skill的元数据(说明书),大大减轻了模型的阅读负担。
高复用性与易维护性:一个PDF处理Skill可以在多个项目中被调用。当Skill升级时,所有使用它的项目都能同步受益。
降低使用门槛:用户或开发者可以像安装插件一样,轻松地为OpenClaw赋予新的能力,极大地扩展了其应用边界。
当然,这种架构也带来了新的挑战。Skill的调用本质上是一种基于长上下文的阅读理解任务,而当前Transformer架构的模型在处理超长上下文时,性能会急剧下降。从8K到33K,模型的推理准确率就可能折半,这正是OpenClaw乃至所有Agent系统需要面对的核心技术瓶颈。
大模型工具学习的核心挑战:从调用到规划的艰难之路
OpenClaw的流畅运行,高度依赖大模型的工具学习能力。这远非简单的API调用,而是一个涉及理解、规划、泛化和自我修正的复杂过程。其面临的难点主要包括:
指令理解与工具匹配:模型需要精准理解用户口语化指令的真实意图(例如,“今天上海挺冷的,北京怎么样?”同样需要调用天气工具),并在众多工具中做出最合适的选择。
多步推理与决策规划:面对“明天去北京,下雪就订高铁,否则订飞机”这类复合指令,模型需要将其拆解为“查天气-决策-订票”等多个步骤,并动态规划工具调用顺序。
错误识别与自我修正:当工具调用失败或返回异常结果时,模型需要能自我诊断,调整策略或选择替代方案。
为了客观评估模型在这方面的能力,学术界构建了各种评测基准。例如,EMNLP 2024上的RoTBench研究显示,模型的工具调用具有脆弱性。仅仅将工具API的名称从有明确语义的“get_weather”改为无意义的“ABC”,就可能导致GPT-4的性能从80分大幅下滑至58分。这说明模型很大程度上是在“记忆”而非“理解”工具的功能。
而在更复杂的多跳工具使用场景下,模型的成功率更是堪忧。ACL 2025发布的ToolHop评测集,在涵盖47个领域的近4000个工具上对主流模型进行测试。结果显示,即使是当时最先进的GPT-4o,在强制使用工具进行多步推理的场景下,准确率也仅在50%左右徘徊。这说明,面对需要组合多个工具才能完成的真实复杂任务,当前大模型的能力仍有巨大提升空间。
我们团队与腾讯混元合作的CL-Bench研究进一步揭示了问题的本质。通过构建一个在真实世界中不存在的人工体系(如虚构的法律或游戏规则),来测试模型从零开始学习并应用新知识的能力。结果显示,在没有预训练数据“作弊”的情况下,所有模型的表现都大幅下降,最好的模型也仅在20-30分徘徊。这有力地证明,当前模型所谓的“推理”在很大程度上依赖于对海量训练数据的记忆和模式匹配,而非真正的逻辑推演。
能力边界的冷静审视:记忆与理解的鸿沟
面对Agent展现出的无限潜力,我们也需要冷静地审视大模型本身的能力边界。一个根本性的问题是:模型究竟是真正“理解”了任务,还是仅仅在进行高级的模式匹配?
我认为:当前的大模型,本质上依然停留在“记忆”的层次,远未达到“理解”的阶段。 其展现出的强大能力,源于四个核心特性的提升。
长上下文建模:从只能处理512 token到可以处理100K甚至更多。
多任务学习:从单一任务的专用模型到能完成成百上千种任务的通用模型。
跨语言迁移性:模型能够将在一种语言中学到的知识迁移到其他语言。
文本生成能力:能够生成流畅、连贯的文本。
然而,这些能力的底层依然是概率和相关性的计算。模型的训练过程与人脑的学习过程存在本质差异。人可以举一反三,学会加法后自然能计算任意大的数字;但模型的学习是“圈层式”的,它在高考题上拿到145分,并不代表它能做好简单的小学加减法。例如,模型可能数对了“strawberry”中有几个“r”,也可能算对了“50个1相加中间加两个11”,但当数字扩展到“100个1”时,它可能又会犯错。因为对于模型来说,这些都是不同的“圈”,它们之间没有必然的联系。
这种基于记忆的模式匹配,导致模型会在一些极其简单的“常识”问题上反复犯错,比如经典的“洗车店距离50米,该开车还是不开车”问题。这些现象警示我们,模型的落地应用场景必须非常苛刻:
结果易于判定:模型输出的结果,人能否一眼就判断其对错?例如,AI生成一张图片或一个笑话,人扫一眼就能判断好坏;但让它起草一份复杂的法律合同,非专业人士根本无法验证其准确性和完整性。
能替代大量人工:模型的价值在于替代那些耗时耗力的工作。如果一个任务人一秒钟就能完成,那么用AI的意义就不大。
只有当这两个条件同时满足时,AI应用才具备了落地的“场景驱动力”。这也解释了为什么AI绘画、AI编程等领域能够快速发展,而AI在金融、法律等严肃领域的应用则步履维艰。
未来展望:共识、分歧与机遇
基于上述分析,我们可以对未来AI Agent化的发展趋势形成几点感悟:
技术飞速发展,但能力边界仍是争议焦点。大模型技术日新月异,但关于其是否能通过Scaling Law走向通用人工智能(AGI),行业内远未达成共识。张奇教授个人认为,基于Transformer的架构,其概率相关性的本质,决定了它可能永远无法实现真正意义上的“理解”和“推理”。
Agent是确定的未来,分歧在于通用还是专用。所有的大模型应用本质上都已演变为Agent系统(如联网搜索、代码解释器等)。未来的核心分歧在于,我们是应该像OpenClaw一样,构建一个包打天下的通用智能体,还是在不同行业、不同场景下进行深度的定制化开发?前者依赖于模型能力的终极突破,后者则更贴近当前技术条件下的现实落地路径。
关注完成率,90分才是及格线。许多炫酷的Demo可能只有20%-30%的完成率,这在商业上毫无价值。一个能被用户买单的产品,其成功率必须接近90%。因此,在评估AI能力时,不能被Demo迷惑,而要追问其在实际复杂场景下的稳定性和可靠性。
从“场景+AI”到“AI原生”。正如Anthropic基金的观点,真正的机会在于“AI-first”公司,即那些没有大模型就不可能存在的公司。它们深度调用模型能力,构建Agent系统,实现企业知识工作自动化。而仅仅在原有产品上加个AI功能的“场景+AI”模式,通常属于现有巨头的领地。
底层基础设施的变革。随着Agent的普及,推理算力的需求将远超训练。如果未来1-2年内模型架构趋于稳定(如Transformer基础架构),那么推理芯片领域将迎来一场混战。将模型架构直接烧录进硬件的专用芯片(ASIC),有望将推理速度提升百倍,成本降至百分之一。届时,英伟达在训练端的霸主地位或许难以撼动,但在规模巨大的推理端市场,华为、阿里、字节等自研芯片以及各类创业公司将迎来巨大的发展机遇。端侧芯片也将因隐私和安全性需求而变得至关重要。
![]()
Q1:对于企业级的AIagent应用,如何应对巨大的token消耗?
A:对于流程明确、定制化的行业应用,不建议采用将所有决策都交给大模型的通用型方案。因为通用智能体需要模型在每个步骤都进行大量推理和调用,导致成本高昂且效率低下。更优的策略是固化工作流(workflow),在确定环节直接执行预定操作,减少模型的不必要介入。此外,可根据不同任务阶段灵活选用最合适的模型,例如将复杂编程任务交给Claude,而阅读理解类任务则调用GLM等性价比更高的模型,以此在保证效果的同时有效控制成本。这种深度改造后的混合架构比直接使用OpenClaw等通用工具更具实用价值。
Q2:市场的增长潜力如何?您如何看待未来五到十年内AIagent在各行业中的应用普及情况,您认为其能够快速渗透哪些行业?
A:当前AI在各行业的渗透率极不均衡。从算力消耗看,编程领域占据主导地位,仅OpenRouter平台约50%的调用量都集中在代码生成上,而医疗等其他所有行业加起来可能不到5%。这一数据反映出:AI最成熟的落地场景依然是编程,其他行业的应用仍处于非常早期的探索阶段。
对于未来的行业渗透,低阶商务场景(如网络数据搜集、简单表格处理)、低级编程甚至初级研究工作,预计3-5年内将被大范围替代。但关键在于,每个行业的深度落地都不能简单套用OpenClaw等通用工具,而是需要领域专家深度参与场景定义。其定制化开发成本极高——涉及细粒度技能(Skill)的升级、模型定制化训练等,每个场景的起步投入可能高达千万级。这要求商业化路径必须能算得过账。
值得期待的是,即使当前模型无法实现AGI,其带来的效率加速仍有望撬动10%-20%的GDP增长。以科研领域为例,过去需要研一研二学生耗费一个月完成的寻找idea工作,未来可能压缩至一小时。这预示着,那些仅能从事重复性、低创造性工作的初级研究人员,其价值将被大幅削弱;只有具备良好学术品味、能提出宏大创见的高阶人才才能在未来保持竞争力。各行业都将迎来深刻变革,但机遇与高昂的定制化成本并存。
Q3:如何解决工作流自动化中的安全性问题,随着AIagent化的深入,AI伦理和隐私问题,是否有相关解决方案?
A:OpenClaw的安全风险极其突出,当前的安全控制手段仍处于非常原始的阶段。一个典型案例是Meta首席安全官授权OpenClaw整理杂乱邮件,结果AI开始批量删除邮件。即便他立即指令“停下来”,OpenClaw依然无视、继续删,最终只能靠拔网线强制中断。究其原因,在于上下文过长——模型在处理过程中将System Prompt里“风险操作须提示用户”的指令给“遗忘”或覆盖了。
OpenClaw的悖论在于:要让它做复杂事,就必须授予高权限。整理邮件需要邮件写入权限,处理财报需要读取财务数据的权限。在这种高权限环境下,目前缺乏有效的细粒度权限控制机制,更无法与模型的指令遵循能力联动——即模型在执行过程中能否自主识别高风险操作,并触发二次授权。
实践中,很多人只敢在沙盒环境中运行OpenClaw,或仅赋予只读权限来完成新闻总结这类无伤大雅的任务。未来,Agent的安全性将是一个独立且重要的研究课题,核心在于如何将语义理解与权限控制深度关联。但目前相关研究稀缺,尚无成熟解决方案。在自己的工作笔记本上完整授权OpenClaw,无异于引狼入室。
Q4:OpenClaw这样的Agent工具,哪些盈利模式比较合适?
A:OpenClaw这类工具的收费模式尚不清晰,关键在于其技术壁垒过低。它本质上只是提供了一个连接框架,真正的难度——如调用搜索引擎、解析PDF等——都由大模型或第三方工具解决,自身“护城河”非常短。因此,项目爆火后迅速涌现大量开源替代品,单纯作为工具收费的可能性不大。
未来若想商业化,必须向更深度的整合方向发展,例如像阿里云、Minimax等厂商提供的“计算机使用”(computer use)能力——一键开启云端电脑完成复杂任务。如果仅停留在技术调度层而不管上下游,收费点将极为有限。
Q5:未来几年AIagent化技术的发展趋势,可能带来的革命性变化有哪些?哪些环节很重要,但是当前比较薄弱或早期、发展潜力大、值得投资布局?
A:从模型视角看,长上下文处理、规划推理能力和泛化能力是AI Agent发展的三个核心技术点。长上下文虽是最核心的环节,但作为一个单一技术点,其独立投资价值存疑——如果一家公司仅将上下文处理做到极致,很可能最终被基础模型厂商整合吸收。
当前关键在于模型本身对长上下文的理解能力,以及如何针对复杂任务进行规划(Plan)和提升泛化能力。例如阅读理解从85分提到95分,需要探索采用何种数据、训练过程,并在理论上分析模型上限——基于现有数据能否必然达到95分,还是可能性本身就低。这些都是重要技术方向,但落实到投资布局上,仍需谨慎评估其商业转化路径。
![]()
OpenClaw的爆火,如同投入湖面的一颗石子,激起了人们对AI Agent未来的无限憧憬。它让我们看到,当语言模型具备行动力,一个万物智联、人机协同的新世界正在加速到来。然而,兴奋之余,我们更需清醒地认识到,通往这个世界的道路并非坦途。大模型的能力边界、工具学习的可靠性、安全性风险以及高昂的成本,都是我们必须跨越的障碍。
随着AI Agent的爆火带来Tokens消耗的快速增长将会对AI基础设施发展带来显著促进,基础设施中地面算力、太空算力相关的算力、存力、传力、运力和电力值得持续关注,同时垂直场景相关的AI应用、AI智能设备也值得关注,预计两到三年内将从目前的点爆发逐渐进入面爆发阶段。
未来五到十年,将是AI Agent在探索与争议中砥砺前行,并在各个行业逐步渗透、重塑生产关系的黄金时代。谁能在这场变革中,找准场景,解决核心痛点,谁就能把握住未来的先机。
(来源:钛媒体)
