当语言模型具备行动力：OpenClaw揭示的Agent化挑战与机遇 | 钛资本人工智能组

2026年03月10日,17时26分28秒科技新知阅读 58 views 次

文 | 钛资本研究院

从2023年初ChatGPT引爆全球关注，到如今AI技术渗透到各行各业，我们正见证着一场深刻的范式转移。比尔·盖茨曾断言，“Agent将是未来计算机交互史上最大的革命”。当语言模型不再局限于文字对话，而是拥有了“数字手脚”，能够直接操控电脑、访问数据、调用工具，一个全新的“代理化”时代正在拉开序幕。

近期，开源项目OpenClaw的爆火，正是这一趋势的集中体现。它将大语言模型（LLM）从单纯的“思考者”转变为能够执行复杂任务的“行动派”，引发了业界对AI Agent（智能体）未来的无限遐想与深度思考。

近期钛资本邀请复旦大学计算与智能创新学院教授、国家级领军人才张奇进行分享，他兼任上海市智能信息处理重点实验室副主任，中国中文信息学会理事、CCF大模型论坛常务委员、CIPS大模型专家委员会委员、CIPS信息检索专委会常务委员。主要研究方向是自然语言处理和信息检索，聚焦大语言模型复杂推理和解释性分析等。在ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。在国际重要学术刊物和会议发表论文200余篇，获得美国授权专利4项，著有《自然语言处理导论》和《大规模语言模型：理论与实践》。主持人是钛资本董事总经理吴亚力，负责新一代信息技术方向，重点关注人工智能、智能硬件、半导体等产业领域。

从手工工作流到通用智能体：AI Agent的演进之路

AI Agent的概念并非始于大语言模型，早在90年代的学术界就已有相关探讨。然而，大模型的崛起为这一概念注入了全新的生命力。从2023年到2025年，AI Agent的发展路径清晰地展现了从“手工定制”到“通用智能”的演进。

在早期阶段（2023-2024年），受限于模型的编程和推理能力，完全自主规划的Agent成功率极低（可能不足10%）。业界的主流解决方案是手工定制的工作流平台，如以LangChain为代表的低代码/无代码平台。这些平台通过预定义的DAG（有向无环图）或状态机来编排任务，将复杂流程拆解为固定步骤。

然而，这种模式存在显著瓶颈。首先，流程设计复杂，普通用户难以驾驭，而专业用户为每个新场景定制流程又显得笨重低效。其次，灵活性差，固定的工作流难以应对开放、动态的真实世界任务。这些痛点限制了工作流自动化在企业应用中的推广。

随着模型能力，尤其是编程和推理能力的飞跃（得益于Cursor等工具提供的高质量数据飞轮），业界开始探索新的方向——通用智能体。以2025年现象级产品Manus为代表，其核心理念是“完全抛弃定制工作流”，将任务全权交给模型。用户只需输入指令，模型自主进行任务拆解（Plan）、调用工具（Action）、观察结果并进行反思（Observe & Reflect），形成一个动态的“感知-规划-执行”循环。

OpenClaw则在通用智能体的基础上，将AI的“行动力”从云端拉回到了用户的个人数字空间。如果说Manus是一个在云端为你工作的助理，那么OpenClaw更像是直接入驻你电脑的“贾维斯”。它被赋予了极高的本地权限，可以访问你的邮件、文件、聊天记录，甚至控制家中的IOT设备。这使得它的应用场景被极大扩展，从日程安排、设备控制到更复杂的任务，如“在网上订餐失败后，自动生成语音并通过电话完成预订”，真正让AI助手走入了现实。

OpenClaw的核心架构：插件化设计与Skill的模块化革命

OpenClaw的走红，不仅在于其宏大的愿景，更在于其精巧且富有扩展性的架构设计。其核心逻辑是“核心精简、边缘丰富”的插件化架构，主要包含以下几个核心模块：

Gateway/Routers（中央网关）：作为整个系统的“大脑中枢和交通枢纽”，负责管理会话、调度Agent任务、维持与各个聊天渠道（如微信、飞书）的连接，并协调其他节点的能力。

Agent（智能体）：这是执行任务的核心单元。它接收来自Gateway的任务，动用其“大脑”（大语言模型）进行规划和决策，利用“手脚”（Tools）和“专业知识”（Skills）来完成任务。

Channels（渠道适配器）：充当“通信与翻译官”的角色，负责与不同消息渠道进行对接和消息格式转换。

Nodes（远程能力节点）：作为“分布式触手”，扩展了主机的协作能力，例如连接摄像头或其他智能设备。

在这个架构中，一个关键的技术创新点是引入了Skill（技能）的概念。在OpenClaw之前，大模型使用工具的方式主要是通过将大量的API定义直接塞入系统提示词（System Prompt）中。这种原始方式带来了两大难题：

上下文混乱：系统提示词中混杂着身份定义、操作流程和几十个工具的API描述，导致提示词臃肿（OpenClaw的System Prompt高达约14,000 token），维护困难，模型也难以精准理解。

复用性差：工具的定义与特定项目绑定，修改一个工具需要在多个项目中同步，极易产生版本漂移。

为了解决这些问题，Anthropic推出了Skill概念，并被OpenClaw采纳。Skill可以被理解为“员工手册+工具箱”的组合。

员工手册（SKILL.md）：用自然语言编写的说明文档，告诉AI该技能的用途、适用场景、使用步骤和注意事项。

工具箱（可执行脚本&资源文件）：提供完成任务所需的Python、JavaScript等脚本，以及可供查阅的参考文档或模板。

通过将工具封装成独立的Skill，OpenClaw实现了显著的改进：

上下文管理优化：系统提示词中不再包含每个工具的具体实现细节，只保留Skill的元数据（说明书），大大减轻了模型的阅读负担。

高复用性与易维护性：一个PDF处理Skill可以在多个项目中被调用。当Skill升级时，所有使用它的项目都能同步受益。

降低使用门槛：用户或开发者可以像安装插件一样，轻松地为OpenClaw赋予新的能力，极大地扩展了其应用边界。

当然，这种架构也带来了新的挑战。Skill的调用本质上是一种基于长上下文的阅读理解任务，而当前Transformer架构的模型在处理超长上下文时，性能会急剧下降。从8K到33K，模型的推理准确率就可能折半，这正是OpenClaw乃至所有Agent系统需要面对的核心技术瓶颈。

大模型工具学习的核心挑战：从调用到规划的艰难之路

OpenClaw的流畅运行，高度依赖大模型的工具学习能力。这远非简单的API调用，而是一个涉及理解、规划、泛化和自我修正的复杂过程。其面临的难点主要包括：

指令理解与工具匹配：模型需要精准理解用户口语化指令的真实意图（例如，“今天上海挺冷的，北京怎么样？”同样需要调用天气工具），并在众多工具中做出最合适的选择。

多步推理与决策规划：面对“明天去北京，下雪就订高铁，否则订飞机”这类复合指令，模型需要将其拆解为“查天气-决策-订票”等多个步骤，并动态规划工具调用顺序。

错误识别与自我修正：当工具调用失败或返回异常结果时，模型需要能自我诊断，调整策略或选择替代方案。

为了客观评估模型在这方面的能力，学术界构建了各种评测基准。例如，EMNLP 2024上的RoTBench研究显示，模型的工具调用具有脆弱性。仅仅将工具API的名称从有明确语义的“get_weather”改为无意义的“ABC”，就可能导致GPT-4的性能从80分大幅下滑至58分。这说明模型很大程度上是在“记忆”而非“理解”工具的功能。

而在更复杂的多跳工具使用场景下，模型的成功率更是堪忧。ACL 2025发布的ToolHop评测集，在涵盖47个领域的近4000个工具上对主流模型进行测试。结果显示，即使是当时最先进的GPT-4o，在强制使用工具进行多步推理的场景下，准确率也仅在50%左右徘徊。这说明，面对需要组合多个工具才能完成的真实复杂任务，当前大模型的能力仍有巨大提升空间。

我们团队与腾讯混元合作的CL-Bench研究进一步揭示了问题的本质。通过构建一个在真实世界中不存在的人工体系（如虚构的法律或游戏规则），来测试模型从零开始学习并应用新知识的能力。结果显示，在没有预训练数据“作弊”的情况下，所有模型的表现都大幅下降，最好的模型也仅在20-30分徘徊。这有力地证明，当前模型所谓的“推理”在很大程度上依赖于对海量训练数据的记忆和模式匹配，而非真正的逻辑推演。

能力边界的冷静审视：记忆与理解的鸿沟

面对Agent展现出的无限潜力，我们也需要冷静地审视大模型本身的能力边界。一个根本性的问题是：模型究竟是真正“理解”了任务，还是仅仅在进行高级的模式匹配？

我认为：当前的大模型，本质上依然停留在“记忆”的层次，远未达到“理解”的阶段。其展现出的强大能力，源于四个核心特性的提升。

长上下文建模：从只能处理512 token到可以处理100K甚至更多。

多任务学习：从单一任务的专用模型到能完成成百上千种任务的通用模型。

跨语言迁移性：模型能够将在一种语言中学到的知识迁移到其他语言。

文本生成能力：能够生成流畅、连贯的文本。

然而，这些能力的底层依然是概率和相关性的计算。模型的训练过程与人脑的学习过程存在本质差异。人可以举一反三，学会加法后自然能计算任意大的数字；但模型的学习是“圈层式”的，它在高考题上拿到145分，并不代表它能做好简单的小学加减法。例如，模型可能数对了“strawberry”中有几个“r”，也可能算对了“50个1相加中间加两个11”，但当数字扩展到“100个1”时，它可能又会犯错。因为对于模型来说，这些都是不同的“圈”，它们之间没有必然的联系。

这种基于记忆的模式匹配，导致模型会在一些极其简单的“常识”问题上反复犯错，比如经典的“洗车店距离50米，该开车还是不开车”问题。这些现象警示我们，模型的落地应用场景必须非常苛刻：

结果易于判定：模型输出的结果，人能否一眼就判断其对错？例如，AI生成一张图片或一个笑话，人扫一眼就能判断好坏；但让它起草一份复杂的法律合同，非专业人士根本无法验证其准确性和完整性。

能替代大量人工：模型的价值在于替代那些耗时耗力的工作。如果一个任务人一秒钟就能完成，那么用AI的意义就不大。

只有当这两个条件同时满足时，AI应用才具备了落地的“场景驱动力”。这也解释了为什么AI绘画、AI编程等领域能够快速发展，而AI在金融、法律等严肃领域的应用则步履维艰。

未来展望：共识、分歧与机遇

基于上述分析，我们可以对未来AI Agent化的发展趋势形成几点感悟：

技术飞速发展，但能力边界仍是争议焦点。大模型技术日新月异，但关于其是否能通过Scaling Law走向通用人工智能（AGI），行业内远未达成共识。张奇教授个人认为，基于Transformer的架构，其概率相关性的本质，决定了它可能永远无法实现真正意义上的“理解”和“推理”。

Agent是确定的未来，分歧在于通用还是专用。所有的大模型应用本质上都已演变为Agent系统（如联网搜索、代码解释器等）。未来的核心分歧在于，我们是应该像OpenClaw一样，构建一个包打天下的通用智能体，还是在不同行业、不同场景下进行深度的定制化开发？前者依赖于模型能力的终极突破，后者则更贴近当前技术条件下的现实落地路径。

关注完成率，90分才是及格线。许多炫酷的Demo可能只有20%-30%的完成率，这在商业上毫无价值。一个能被用户买单的产品，其成功率必须接近90%。因此，在评估AI能力时，不能被Demo迷惑，而要追问其在实际复杂场景下的稳定性和可靠性。

从“场景+AI”到“AI原生”。正如Anthropic基金的观点，真正的机会在于“AI-first”公司，即那些没有大模型就不可能存在的公司。它们深度调用模型能力，构建Agent系统，实现企业知识工作自动化。而仅仅在原有产品上加个AI功能的“场景+AI”模式，通常属于现有巨头的领地。

底层基础设施的变革。随着Agent的普及，推理算力的需求将远超训练。如果未来1-2年内模型架构趋于稳定（如Transformer基础架构），那么推理芯片领域将迎来一场混战。将模型架构直接烧录进硬件的专用芯片（ASIC），有望将推理速度提升百倍，成本降至百分之一。届时，英伟达在训练端的霸主地位或许难以撼动，但在规模巨大的推理端市场，华为、阿里、字节等自研芯片以及各类创业公司将迎来巨大的发展机遇。端侧芯片也将因隐私和安全性需求而变得至关重要。

Q1：对于企业级的AIagent应用，如何应对巨大的token消耗？

A：对于流程明确、定制化的行业应用，不建议采用将所有决策都交给大模型的通用型方案。因为通用智能体需要模型在每个步骤都进行大量推理和调用，导致成本高昂且效率低下。更优的策略是固化工作流（workflow），在确定环节直接执行预定操作，减少模型的不必要介入。此外，可根据不同任务阶段灵活选用最合适的模型，例如将复杂编程任务交给Claude，而阅读理解类任务则调用GLM等性价比更高的模型，以此在保证效果的同时有效控制成本。这种深度改造后的混合架构比直接使用OpenClaw等通用工具更具实用价值。

Q2：市场的增长潜力如何？您如何看待未来五到十年内AIagent在各行业中的应用普及情况，您认为其能够快速渗透哪些行业？

A：当前AI在各行业的渗透率极不均衡。从算力消耗看，编程领域占据主导地位，仅OpenRouter平台约50%的调用量都集中在代码生成上，而医疗等其他所有行业加起来可能不到5%。这一数据反映出：AI最成熟的落地场景依然是编程，其他行业的应用仍处于非常早期的探索阶段。

对于未来的行业渗透，低阶商务场景（如网络数据搜集、简单表格处理）、低级编程甚至初级研究工作，预计3-5年内将被大范围替代。但关键在于，每个行业的深度落地都不能简单套用OpenClaw等通用工具，而是需要领域专家深度参与场景定义。其定制化开发成本极高——涉及细粒度技能（Skill）的升级、模型定制化训练等，每个场景的起步投入可能高达千万级。这要求商业化路径必须能算得过账。

值得期待的是，即使当前模型无法实现AGI，其带来的效率加速仍有望撬动10%-20%的GDP增长。以科研领域为例，过去需要研一研二学生耗费一个月完成的寻找idea工作，未来可能压缩至一小时。这预示着，那些仅能从事重复性、低创造性工作的初级研究人员，其价值将被大幅削弱；只有具备良好学术品味、能提出宏大创见的高阶人才才能在未来保持竞争力。各行业都将迎来深刻变革，但机遇与高昂的定制化成本并存。

Q3：如何解决工作流自动化中的安全性问题，随着AIagent化的深入，AI伦理和隐私问题，是否有相关解决方案？

A:OpenClaw的安全风险极其突出，当前的安全控制手段仍处于非常原始的阶段。一个典型案例是Meta首席安全官授权OpenClaw整理杂乱邮件，结果AI开始批量删除邮件。即便他立即指令“停下来”，OpenClaw依然无视、继续删，最终只能靠拔网线强制中断。究其原因，在于上下文过长——模型在处理过程中将System Prompt里“风险操作须提示用户”的指令给“遗忘”或覆盖了。

OpenClaw的悖论在于：要让它做复杂事，就必须授予高权限。整理邮件需要邮件写入权限，处理财报需要读取财务数据的权限。在这种高权限环境下，目前缺乏有效的细粒度权限控制机制，更无法与模型的指令遵循能力联动——即模型在执行过程中能否自主识别高风险操作，并触发二次授权。

实践中，很多人只敢在沙盒环境中运行OpenClaw，或仅赋予只读权限来完成新闻总结这类无伤大雅的任务。未来，Agent的安全性将是一个独立且重要的研究课题，核心在于如何将语义理解与权限控制深度关联。但目前相关研究稀缺，尚无成熟解决方案。在自己的工作笔记本上完整授权OpenClaw，无异于引狼入室。

Q4:OpenClaw这样的Agent工具，哪些盈利模式比较合适？

A:OpenClaw这类工具的收费模式尚不清晰，关键在于其技术壁垒过低。它本质上只是提供了一个连接框架，真正的难度——如调用搜索引擎、解析PDF等——都由大模型或第三方工具解决，自身“护城河”非常短。因此，项目爆火后迅速涌现大量开源替代品，单纯作为工具收费的可能性不大。

未来若想商业化，必须向更深度的整合方向发展，例如像阿里云、Minimax等厂商提供的“计算机使用”（computer use）能力——一键开启云端电脑完成复杂任务。如果仅停留在技术调度层而不管上下游，收费点将极为有限。

Q5：未来几年AIagent化技术的发展趋势，可能带来的革命性变化有哪些？哪些环节很重要，但是当前比较薄弱或早期、发展潜力大、值得投资布局？

A：从模型视角看，长上下文处理、规划推理能力和泛化能力是AI Agent发展的三个核心技术点。长上下文虽是最核心的环节，但作为一个单一技术点，其独立投资价值存疑——如果一家公司仅将上下文处理做到极致，很可能最终被基础模型厂商整合吸收。

当前关键在于模型本身对长上下文的理解能力，以及如何针对复杂任务进行规划（Plan）和提升泛化能力。例如阅读理解从85分提到95分，需要探索采用何种数据、训练过程，并在理论上分析模型上限——基于现有数据能否必然达到95分，还是可能性本身就低。这些都是重要技术方向，但落实到投资布局上，仍需谨慎评估其商业转化路径。

OpenClaw的爆火，如同投入湖面的一颗石子，激起了人们对AI Agent未来的无限憧憬。它让我们看到，当语言模型具备行动力，一个万物智联、人机协同的新世界正在加速到来。然而，兴奋之余，我们更需清醒地认识到，通往这个世界的道路并非坦途。大模型的能力边界、工具学习的可靠性、安全性风险以及高昂的成本，都是我们必须跨越的障碍。

随着AI Agent的爆火带来Tokens消耗的快速增长将会对AI基础设施发展带来显著促进，基础设施中地面算力、太空算力相关的算力、存力、传力、运力和电力值得持续关注，同时垂直场景相关的AI应用、AI智能设备也值得关注，预计两到三年内将从目前的点爆发逐渐进入面爆发阶段。

未来五到十年，将是AI Agent在探索与争议中砥砺前行，并在各个行业逐步渗透、重塑生产关系的黄金时代。谁能在这场变革中，找准场景，解决核心痛点，谁就能把握住未来的先机。

(来源：钛媒体)

2026年 5月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

大模型工具学习的核心挑战：从调用到规划的艰难之路

关联资讯:

用户登录