几乎都在挂羊头卖狗肉，AI Agent的泡沫现在到底有多大？

2025年10月14日,18时25分47秒国内动态阅读 4 views 次

（来源：知危）

Agent、Agnet？Agent！说起今年的 AI 浪潮，除了年初 DeepSeek 引领的一波强化学习热，行业内最受关注的，莫过于各种各样的 AI Agent 以及 “ 类 Agent ”。

不知从什么时候开始，Agnet 变成了一种万能公式，什么都可以套进去一下。但，Agent 真的有那么好吗？真的有竞争力吗？

“ Manus 前阵子刚推出的新功能 Wide Research，我觉得非常不具备竞争力，对提高产品竞争力没有什么用。” 某大型金融企业 AI 技术专家王显（化名）向知危表示。

从 “ 次日即旧 ” 的榜单到被基础模型一轮升级清场的产品，2025 年的 Agent 创业，热闹背后是可怜的留存率与渐趋同质的体验。

几乎所有 Agent 产品都在讲 “ 更聪明、更全能、更自动化 ”，但用户只试用一次就离开的比例居高不下，Demo 能飞，落地常摔，这是否意味着通用型 Agent 的叙事正在透支？

本文，知危把镜头拉远，看看泡沫究竟来自资本驱动、技术错配，还是场景误判？

我们将邀请来自大型企业、创业公司的多位一线实践者，以 Manus 近期的新产品 Wide Research 和公司跑路、撤资事件为引，追问国内外 Agent 泡沫乱象现实、背后的原因，以及未来 Agent 赛道的生存规则。

在交流过程中，知危发现，通用与垂直的取舍和统合是决定去留的关键。

实际上，今年 Agent 大火，主要是在 tool-use 上取得突破，《知识图谱：认知智能理论与实战》、《知识增强大模型》与《比 RAG 更強- 知識增強 LLM 型應用程式實戰》作者、大模型技术专家王文广向知危表示，“ 具体来看，从编程到browser-use，再到 computer-use，以及随着 MCP 通用接口普及率的提升，Agent 的 tool use 能力得到增强，能够更高效地从外部获取信息，以及与外部系统进行交互。”

平安保险技术平台组负责人张森森进一步向知危解释道，“ 技术层面上，协议逐渐成熟，能力外延扩大，可以通过 MCP 协议等方式应用到更多场景。应用层面上，有些长尾场景得到了覆盖，比如从浏览器信息助手到执行动作的转变：过去只是提供答案，现在能帮助完成动作。生态层面也降低了一些成本。”

“ 过去厂商比拼模型参数，现在还要比拼模型加生态工具的组合能力，市场竞争焦点已经发生转移。”

但这其中，以 Manus 为代表的通用 Agent 类产品一直饱受争议。

一方面，资本甚是青睐，另一方面，用户诟病不止。直到最近，Manus 先是跑路，把公司总部从国内搬迁到新加坡，随后推出了 Wide Research 产品，再之后又被曝出将可能因为安全审查问题被强制撤销融资。

在整个赛道中，炒作了大半年的 Agent 概念，也开始面临越来越显性的质疑。

王显向知危详细解释了为何 Wide Research 缺乏竞争力，“ 第一，Wide Research确实提高了并行处理的效率，但也非常消耗计算资源和调用额度，所以它的定价非常贵。”

“ 第二，没有看到它与单体高性能的 Deep Research 在性能准确度、成本效率上的公开对比或测试，所以不能确定它在使用大量并行任务后，效果是否真的得到提升。”

“ 最重要的一点是，它仍然没有解决场景壁垒的问题。”“ 它没有专业数据、没有专属工具链、没有行业认证、没有与业务深度绑定的集成，也没有与高价值业务场景的绑定，也就是任何人都能做。所以，它更偏向工程能力的延伸，而不是在构建场景护城河。”

“ 当然，早期采用浅而宽的策略来获客没有问题，但长期来看，Manus无法抵御模型厂商的下沉和垂直厂商的渗透。”

“ 所以在我看来，Manus 自始至今，从产品角度而言，思路是完全失败的。”

AI 技术专家和创业者陈为也基本持一致的观点：“ Wide Research 的本质是 ‘ 规模化通用任务执行器 ’，效率高，但没有解决 ‘ 决策 ’ 问题。”

“ 用户会发现，当他们遇到真正复杂的问题时，这个通用 Agent 还是帮不上忙，最终不得不转向专业的垂直产品或人工服务，导致用户留存率不高。”

如果扩大到任意的通用 Agent，则它们都具备一个看似有吸引力但实则致命的特点：任务范围模糊。

知言吉智 CEO 付瑞吉向知危表示，“ 任务范围模糊一定会对产品带来不利的影响。一方面，当一个 Agent 宣称能做所有事情时，它往往在任何一个领域都做不到最好；另一方面，任务范围模糊，意味着用户对于这个 Agent 到底能帮自己解决什么问题也会有困惑，那么这个产品的认知成本就非常高。”

付瑞吉进一步向知危解释了近期 Agent 泡沫兴起的创业者心态：“ 大模型的出现让大家觉得开发门槛降低了，感觉 ‘ 人人都能做 Agent ’。许多开发者和创业公司认为将其包装成一个能解决各种问题的 ‘ 超级助手 ’，能迅速吸引大量 C 端用户。通用型 Agent 的核心卖点就是 ‘ 解决所有问题 ’。但现实是，目前为止没有任何一个 Agent 能真正做到这一点。”

王显更是认为这场泡沫的兴起是创业公司和资本共谋的产物，“ Manus 根本不是在做产品，而是在走资本路线，通过不断推高市场知名度以获得更高融资。至于创始人是拿到融资后真正深入场景做产品还是卷钱跑路，只有创始人自己才知道。产品非常失败，但营销可以说非常成功。”

付瑞吉补充道，“ 营销只能负责将大众的注意力吸引过来，但 Agent 不同于内容类的产品（如短视频）只要用户的注意力就够了，它还是要解决用户的实际问题的，如果用户发现产品 ‘ 华而不实 ’，则很难留存。”

沐瞳科技大数据负责人薛赵明则认为这种产品模式有一定合理性，但还是要区分 ToC 和 ToB 的逻辑，“ ToC 和 ToB 是两种逻辑，ToC 需要具备多样性，这个多样性也代表了用户选择的多样性，产品力不足的会很快在市场的浪潮中褪去，因为这是一个非常烧钱的赛道，没有用户的沉淀和付费是很难长期坚持的。ToB 又是另一个商业逻辑，必须强调可落地和可交付，否则便是无用的。”

王显以 Wide Research 为例解释了为何通用 Agent 产品现阶段对于企业用户无用，“ 对于企业而言，Wide Research 并没有说明 Agent 是如何分工、如何合作、如何整合各自结果的，它们之间的协调协议和调度机制也不明确。那我最后怎么去做审计呢？作为企业，我必须审计这个过程是否合规，以及在执行过程中到底发生了什么。所以我没办法信任它给出的最终结果。”

“ 尤其是在金融行业，我们可能花了很长时间跑出一个结果，如果它直接告诉我买哪只股票、投哪家公司，我不可能只凭这个结果就去执行。”

Manus 虽然接受了中外多个基金的投资，但运营主要面向海外市场，而且总部已经搬迁到新加坡，其代表的只是 Agent 泡沫的一小部分组成。

但聚焦到国内，情况也并不乐观，甚至可以说有太多相似之处。

薛赵明表示，“ 实际上，当前无论是创业公司，还是一线的云厂商的产品，大部分的产品都还是在一个特定场景下去演示，真正的规模化落地还是偏少。”

张森森表示，“ 国内很多 Agent 产品功能繁多，但基本都是快速堆叠，痛点不聚焦。”

“ 比如有大量集成了写文案、做 PPT、查资料、生成图片等功能的产品，不乏大厂参与其中。它们都有通用 Agent 的特点，功能多但不精。写代码准确率不高，数据分析缺少可解释性，设计产出质量参差不齐。初次使用可能觉得新鲜，但要长期依赖则难以实现。很少有明确与工作流、KPI 绑定的可交付结果。”

“ 具体到一些金融类工具型 APP（公司主体一般没有正式的金融业务牌照），比如炒股平台，会提供所谓的智能投顾功能。当我打开某只股票时，它可能提示该股票出现‘红三兵’，未来可能上涨，但这样的判断缺乏准确性。”

“ 因为它只是摘录过去的一些市场信息，而二级市场的信息来源非常多，决策点也很多，这类产品完全无法体现这些复杂因素。看起来像是做了一个智能投顾，但实际上既没有真正实现投资组合优化、风险控制，也无法对接交易系统，无法支撑其宣传的定位。”

“目前市面上没有一家能真正把智能投顾功能做好。实际上，大部分经纪公司都有相关部门去做这件事。问题在于，一方面他们觉得必须做，另一方面看到大模型似乎能解决问题，就开始投入开发，完成后立刻做宣传，声称接入了大模型并具备某种能力。”

“但这里的问题在于，他们的宣传能力与实际能力并不匹配，并非能力完全无用，而是存在明显落差。”

王文广表示，“ 成功演示的往往是任务中那 20% 的标准化部分，而真正构成工作核心的，是那 80% 的、充满‘长尾异常’的复杂现实。”

就连大家目前普遍主动或被动接触过的AI搜索，其实也还很初级，Jina AI 前 CTO 王楠向知危表示，“ Agent 目前能够多轮使用简单工具或者单轮使用复杂工具，但是多轮使用复杂工具（例如搜索工具）的能力还没有达到生产可用。从BrowseComp Benchmark 上看，搜索大模型在使用搜索工具方面还有很大的提升空间。这种差距的原因在于大模型在使用通用工具上的能力还没有迎来ChatGPT时刻。”

白鲸开源 CEO 郭炜向知危总结道，“ 目前整体来看，各种 Agent 产品给人的惊喜度确实不够。因为现在 Agent 技术本身还没有的公司今年已经消失，泡沫破灭速度会很快。”

当前的 Agent 产品普遍缺陷明显，可以从产品、工程、场景等多方面理解。

产品层面主要是可靠性不足。对于为何大部分 ToC Agent 产品中，90% 的用户用一次就离开，郭炜表示，“ 这很正常，因为它还不如直接用 APP。真正的 Agent 应该比 APP 更方便、更简单。”

“ 而如果是 To B 产品，必须比现有软件更简单、准确、方便。本来用户点三下鼠标就能完成的事，现在用 Agent 却要用自然语言先说一句话，然后再跟它说十句话，才能替代原本三次点击的工作。这样的体验让人宁愿直接点鼠标。”

王文广表示，“ 换句话说，最根本的原因是，对于大多数真实世界任务，用户为验证和修正 AI Agent 输出所付出的心智成本和时间成本，超过了 Agent 本身所节省的成本。”

“ ‘ 通用个人助理 ’ 承诺的是一个科幻级别的未来。其所要处理的任务，如预订家庭旅行、管理个人财务、安排重要会议，都具有一个共同点：高信任要求。例如，用户需要确信 Agent 不会订错机票、不会泄露财务信息、不会搞砸会议时间。”

“ 然而，当前大模型的 ‘ 幻觉 ’、知识陈旧等问题和 Agent 执行的脆弱性，使得其可靠性极低。”

“ 这种 ‘ 高信任要求 ’ 与 ‘ 低可靠性 ’ 之间的巨大鸿沟，或未能稳定地跨越从 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’，是 C 端通用 Agent 无法获得用户长期留存的根本原因。用户可以容忍一个聊天机器人讲错一个历史知识，但绝不能容忍一个 Agent 订错一张机票。”

而且目前 Agent 产品有从订阅制走向按结果付费的趋势，这其实也给通用 Agent 创业公司带来了压力。 “ 这种商业模式的演进，本质上是一次风险转移，将产品无效的风险从客户身上转移到了服务提供商身上，而 ToC 的通用 Agent 的不可靠性使其极难承受这种风险。反倒是 ToB 领域，可以选择合适的场景，通过效果所创造的价值进行分成，是有利的。”

张森森从工程角度总结了许多 Agent 产品无法落地的原因：“ 第一，真实环境非常复杂，不可能像实验环境那样数据干净。现实中数据质量往往较差，接口口径不一致。”

“ 第二，很多接口需要跨系统权限访问，要做 SSO（单点登录），还涉及数据脱敏，这些环节很容易卡住，导致平台间的对接受阻。工具本身存在脆弱性，比如浏览器系统自动化可能对 DOM 版本极其敏感，API 的速率限制等问题也可能导致频繁重试。”

“ 第三，存在状态和记忆缺失的问题。就像长链路任务中缺乏持久状态，上下文无法保存，状态机失效，无法接着上次任务继续，只能从头开始。”

“ 第四，缺少验证和回滚机制，没有二次校验或回滚策略。”

“ 第五，SLA（服务商与客户之间对质量标准、性能指标等的约定）和成本存在约束。企业使用时必须考虑成本，服务需要有保障，确保 TCO（总拥有成本）大于业务收益。”

“ 第六，缺乏合规与审计能力。生产过程要可追溯、可解释，并具备权限与操作流程控制。但在各个平台的演示中几乎看不到这一点，而这恰恰是企业最重要的需求。”

在场景层面，郭炜认为，这个原因可以非常简单，“ 没有真正深入到用户场景中去做。”

“ 大部分 Agent 仍是由处在特别早期阶段的创业者在推动。但真正有价值的 Agent，需要在某个业务领域有深厚积累的人或公司来做。”

张森森持相似观点，“ 实际上，国内外当前都太把技术当回事了，太关注技术使得大家在做大模型和Agent都是围绕技术来构建的。通俗来说就是，技术有什么东西，我做什么东西。”

王文广补充道，“ 当前，AI 公司往往不了解业务，业务公司则没有准确理解AI智能体技术。对 AI 方或业务方来说，都应该了解技术边界，知道智能体能做什么不能做什么，同时结合业务，才会做好这事。”

但 Agent 不只是独立地去攻克一个个场景就可以了，其带来的变革是生态级别的。

郭炜表示，“ Agent 本身是一个大的生态，就像软件或 SaaS 生态一样。未来它会形成一个完整的生态体系，只有这个生态真正建立起来，才能形成所谓的 Agentic Stack，在 Agent 时代承接并转化原有生态。”

“ 这个生态规模很大。以 ToC 的手机端为例，目前手机端还没有出现通用型APP，需要在垂直领域中出现对应的 Agent，例如类似国内的携程、小红书等级别并且更方便的Agent，才能支撑起生态的第一层。”“ 生态的第二层才是通用型 Agent，通用 Agent 的核心在于入口，例如 Apple Intelligence 就是一个入口。”

“ 而入口之争本质是流量之争，而不是技术或产品本身。谁能够抢占新一代 Agent 的流量，谁就能在通用 Agent 领域占据优势。”

从这个角度看，似乎 Manus 的流量打法也有一定的合理性？但王显并不这么认为，他指出应用层的创业公司没有机会去抢占这个流量入口。

也就是说，创业公司无法绕过生态的第一层，直接跳到第二层，成为流量入口。“ 创业公司现有的 Agent 产品要结合到生态链中去，比如苹果或者微信的生态，再把AI能力融合进去，相当于通过 AI 对已有生态链做增强。要实现这一点，要么拥有场景，要么拥有数据。”

如果想直接跳跃到第二层生态，就会面临 Manus 当前的困境，“ 从用户视角来看，Manus 这类产品已经出现用户数量下滑、使用意愿不足的情况。无论是创业公司还是老牌公司，首先要解决的就是生存问题。产品必须有正向 ROI，要能价值兑现，且使用成本不能太高。但 Manus 的产品正好存在价值兑现不足的问题，而且时间、学习和金钱成本都过高。”

王显还认为，流量入口也不是 OpenAI 这类公司的发展方向。“ OpenAI 是创业公司，但也是大模型厂商，肯定不会去做流量入口。相比 Anthropic、Google，OpenAI 更面向大众，比如 ChatGPT、Sora 这样的产品，特征是注重体验、规模化和生态扩展。他们的目标是底层基础设施供应，同时在 C 端和长尾 B 端场景做推广。”

郭炜表示，“ 像苹果这样的公司，天然具备优势去打造移动端的完全通用型 Agent。理想状态下，用户只需说一句 ‘ 帮我订一张去上海的机票 ’，通用助手Agent 就能自动调用多个 APP 或 Agent 服务协同完成整个流程。”

“ 在 ToB 领域也是类似的逻辑，每个垂直方向的 SaaS 都会出现对应的 Agent，需要是真正意义上属于 Agent 时代的软件，之后才会出现入口级通用 Agent。否则，入口级通用 Agent 即使想做，也无法与底层垂直领域的 Agent 有效衔接。即便使用 MCP 的 Server 来连接，中间也会损失大量信息，导致结果不准确，无法满足客户需求。”

“ 现阶段应优先在垂直领域启动 Agent 落地，无论是 To B 还是 To C，都应在原有赛道中先行深耕，逐步培育生态。”

以上，我们描述了 Agent 泡沫的总体情况，可以看到，造成这一现象的根本，还是在技术受限、行业规律甚至一些痼疾的背景下，创业公司和大厂对 Agent 产品在生态中的定位有着错误的认识。

接下来，知危将对这些背景进行更加细致的阐述。

其中，技术受限包括 MCP 协议限制、AI 幻觉限制、多智能体扩展限制、上下文长度限制、大模型智能限制等。

行业规律、痼疾则指向资本炒作、大模型行业竞争的残酷规律以及国内特有的老问题。

郭炜表示，“ 关于使用 MCP Server 会导致信息损失，这一点非常重要。最终，Agent 应该采用 A2A（ Agent to Agent ）的协议，服务于垂直Agent之间的通信，才能完整完成任务。”

“ 而 MCP 是通用 Agent 与外部数据源之间的通信协议。当调用 MCP 时，不可避免地会将自然语言信息转换成结构化的 query 或结构化的 ADB 请求来执行操作，这一转换的准确率需要由调用方来保证。但通用 Agent 要在专业领域内准确地将专业词汇翻译成精确指令，再交由原有程序执行，在现实中非常困难。”

“ 以我们正在做的 Data Agent 为例，这项工作需要较长时间推进，因为必须自底向上完成建设。过去的数据底层通常是裸数据，例如 CSV 文件，里面是各种原始数据。未来需要将这些数据转化为带有语义的 Contextual Data Unit（ CDU ），才能被上层 Agent 有效消费。因此必须了解企业所有表的字段含义及数据意义，需要非常专业的数据获取厂商来完成。”

“ 例如，‘ 消费金额 ’ 必须明确对应哪个系统、什么业务的消费金额，Agent 才能理解。否则，如果上层 Agent 仅接到 ‘ 获取消费金额 ’ 的指令，它必须再去解析并定位到 Salesforce 系统中的特定交易表及其规则。比如让 MCP Server 将请求翻译成 SQL 再下发到 Salesforce 查询数据，但它并不知道 ‘ 消费金额 ’ 在当前语境下的具体含义，是来自 Salesforce、SAP，还是其他系统。它甚至不了解 Salesforce、SAP 分别是什么。”

“ 这不仅是当前 Agent 技术无法实现的，甚至人类在缺乏上下文的情况下也很难完成。”

“ 因此，通用 ToB Agent 并不是 ‘ 在 MCP 上套一层通用 Agent ’ 就能实现的，而必须由基于 A2A 的多个专业领域的 Agent 相互协作（ Agent + Agent ）实现。”

“ 相比之下，提示词专业性、token 成本爆炸等都是更加次要的，会随着时间自然解决。”

Agent 还有一个永远无法解决的问题，那就是底层大模型的幻觉。已有研究证明，大模型无法从理论上完全消除幻觉。

“ 在现有大模型技术下，有许多场景尝试进行完全 Agent 化，但效果并不理想。”

“ 以自动编码为例，各种号称能够代替人类编码的工具，无论是带 Agent 的 Claude Code、Cursor，还是Augment Code等，都无法真正替代程序员的工作。无论是初级、中级还是高级岗位，都仍需配备人类程序员进行检验和监督。否则一旦幻觉出现且缺乏有效控制，风险极高。例如，近期某公司在使用自动化工具 Replit 时出现误操作，导致数据库被删除。”

“ 目前也没有特别好的方式来自动定位和追溯幻觉。在校验中，虽然无法校验所有环节，但可以抽检一两个关键点，并用传统方法或知识库进行纠错和约束。”

“ 幻觉在前期沟通阶段有一定优势，因为它可能带来一些创新性想法。但在企业落地执行阶段，应尽量控制甚至避免使用大模型。在 Agent 执行任务时，为缓解幻觉，只有借助 workflow 才能保证足够的确定性。”

“ 总之，大模型和 Agent 在目前更多是作为效率工具，显著提升了开发能力。例如，我自己现在几乎没有时间写代码，对一些新发布的 Python 函数也不了解，但大模型能够知晓并直接为我生成代码，还能解释逻辑。这样我只需验证逻辑是否正确并运行，就能快速完成任务。这种方式不仅比我亲自编写代码更快，有时生成的算法思路甚至比我原本设想的更好。”

王文广指出，思维链的幻觉其实在 Agent 产品中也非常常见，“ 这通常被称为过程幻觉，即 AI 编造了一个它并未执行或执行失败的操作过程。”

“ 它输出的不是真实的操作日志，而是它生成的一个 ‘ 看起来像是成功了的 ’ 操作日志。例如，它声称 ‘ 我已经成功运行了测试，所有测试都通过了 ’，但实际上它可能根本没有能力或权限去运行测试，或者实际测试运行失败了。”

“ 从这点也可以看出，在许多情况下，单纯依靠大模型，存在非常多无法解决的问题。如果把所有问题当做一个平面，大模型能够解决的问题是平面上的布，无法解决的问题是孔，那么可以看到，这个平面是千疮百孔的。”

在 Agent 框架设计方面，目前领域内有一个被过分炒作的概念，那就是多智能体。

当前实际应用中，智能体之间的交互主要限于两个智能体。编程体验后来居上的 Claude Code 也没有使用多智能体协作机制。

张森森表示，“ 单智能体或双智能体已经能覆盖 80% 的企业业务场景，此外，限于双智能体也是出于成本考量。”

“ 具体来说，多智能体会显著增加复杂度，容错设计难度提升，开发、维护、算力成本更高，收益和成本不匹配。引入更多智能体未必能提升效果，同时也难以抵消延迟，并会使得系统更加不稳定。用户体验最终取决于响应速度，稳定性方面，智能体越多越容易跑偏，可能出现循环对话、信息丢失等问题，还需要额外监督和约束，复杂度会越来越高。”

“ 多智能体的案例也有，比如一些游戏公司在做 AI 团队游戏，在沙盒环境里尝试多智能体交互。但对大部分企业而言，并不需要这种复杂度。”

王文广补充道，“ 虽然在一些对协调和优化要求极高的特定领域，已经出现了更复杂的、已实际落地的多智能体系统案例，但绝大多数情况下，应该优先解决简单的问题。”

基础模型能力方面，当前非常核心的一个限制还是上下文长度。虽然 OpenAI、Anthropic、谷歌等 AI 公司一直宣称模型上下文达到数十万、上百万 token，但Reddit 社区反馈其中水分很大，有时几万 token 输入下，模型准确率就大幅下降。

张森森表示，“ 实际体验来看，大部分厂商宣称的上下文长度确实水分很大，别说两三千行代码，甚至一千多行时就开始丢失信息了。”

“上下文长度代表了基础模型能力的天花板，特别在 Coding Agent 场景中，基本就是硬天花板的程度。”

“ 在企业内部优化这个问题不仅很难，而且也不是靠企业自己能完全解决的。可选的方案有：代码检索以及更加智能的代码检索；动态上下文管理，只加载与本次修改相关的依赖文件。但这些都治标不治本。”

“ 对资深程序员来说影响不大，他们能很快发现逻辑缺口。”

“ 但对初学者来说，一旦项目规模大，IDE 频繁加载就会崩溃。项目规模一大，就会涉及很多模块和依赖，甚至是跨模态的复杂系统。模型不得不频繁丢失上下文、重新加载信息，导致迭代过程完全断裂，忘记之前的决策，甚至可能出现重复造轮子的情况。”

郭炜补充道，“ 当前的限制不仅来自模型本身，还与底层芯片架构有关，包括显存、外部存储等都需要进一步提升。”

王显认为，在硬件基础设施的限制下，上下文长度瓶颈对于国内而言将是更严峻的问题。

“ 国外芯片比如英伟达 H100、A100 这样的高端 GPU，能够更高效地进行分片计算，处理几十万、上百万 token 上下文。同时它们也有软件层面的优化，比如 FlashAttention 工具、针对张量计算的优化配置等，这些都是通过软硬件结合来提升性能的。”

“ 相比之下，国内主要通过算法优化和软件工程做一些 ‘ 曲线救国 ’ 的工作。类似的，DeepSeek、Kimi 等团队也在发布各种上下文剪裁、分层记忆、稀疏 Attention 等方法，其实都是一些面向低成本的方案。”

“ 一些国内厂商号称自己的高端 GPU 在浮点性能、显存、宽带等各方面和 H100 很相近，但其实还是有很大差距的。国外的顶配集群，比如 H100 加 NVLink Switch，能轻松地应对百万级 token 推理。”

王文广表示，“ 实际上就是 AI 芯片的存储容量和带宽限制了推理的极限，不管是国内外都是这样的。”

“ HBM 是通用 GPGPU 最好的选择，但专用的推理芯片有很多不同的路线，比如使用 3D 堆叠的专门的 AI 芯片。

“ 国内有一些如 CiMicro.AI 这样非常前沿的AI芯片公司，和寒武纪、华为、海光等走了不同的路线，将 3D DRAM 用于 AI 推理芯片上，如果成功流片，带宽能够得到极大的提升，比英伟达用的 HBM 还高一个量级，从而大模型的推理速度将得到极大的提升，长上下文和深度思考则会对 Agent 有极大的促进。”

除了上下文长度之外，更大的限制，自然来自基础模型的智能极限了，特别是近期被诟病平庸的 GPT-5 发布后。

客观来看，GPT-5 的更新点是在产品层面，把幻觉降得特别低，这在消费级用户看来不太友好，但对编程来说非常有用，可靠性很高。对于专业用户而言，有时甚至比 Claude 4 还好用一些，因为 GPT-5 在 Agentic Coding 中倾向 “ 精准定位问题 ” 和 “ 最小侵入修改 ”，而 Claude 4 自主性更强，写的代码更复杂，需要特别提醒才会选用最简方案。

那么，从这个角度看，一直以消费级用户为主体的 OpenAI 未来是否想更多向 B 端推进？

张森森表示，“ 如果是，那也是不得已而为之。现在 GPT-5 是通过多模型路由来提高上限，基本意味着大模型的 Scaling Law 几乎已经失效，单模型上很难再高效提升。其实 GPT-5 的发布本身就有点 ‘ 难产 ’ 的意味，更像是一种形式，而不是自然的过程。未来基础模型能否进一步进化，还需要观察。”

“ 这也是为什么大家都在强化 Agent 能力。相比基础模型，Agent 的可解释性相对更好一些，能更好结合具体业务场景去提升实际能力。但基础模型往往也决定了 Agent 的上限。”

“ 后面大模型的走向可能更多会朝垂直方向发展，参数量未必再无限增大，而是聚焦在更细分的场景。”

大模型厂商经常在营销中刻意忽视模型当前的智能上限，而过分强调可以放心地依赖大模型全权执行工作，比如 Claude 甚至介绍了一种简单粗暴的使用经验，他们内部用 Claude Code 写代码的时候，有一个原则就是 “ 不行就重来 ”。

王文广表示，“ ‘ 不行就重来 ’ 的策略，跟金钱和时间等无关，跟解决问题的复杂程度有关。简单来说，在原型探索阶段或者简单的应用中，是一种有效的捷径，但在严肃的、可维护的较为复杂的生产环境中，这是一种不可持续且极具破坏性的工作模式。”

对于基础模型本身，王文广则认为还会继续进步，“ 整个 Agent 生态系统，也都在等待基础模型的下一次重大突破。一旦新的、更强大的基础模型出现，它将立刻抬高整个 Agent 生态系统的能力天花板，催生出新的应用。”

除了工程和模型层面的技术问题，在行业层面，还存在几大问题，包括资本叙事泡沫、基模公司挤压、国内 ToB SaaS 的痼疾等。

张森森表示，“ 目前 Agent 赛道处于资本和叙事先行的阶段，VC 过于乐观。但 Agent 实际可用性仍然较差，没有看到正向 ROI 的落地，总体拥有成本（ TCO ）明显大于收益。”

“ 投资热和用户体验背离的原因在于，投资端和市场更追求故事性，喜欢 ‘ 通往 AGI 的必经之路 ’、‘ 下一代操作系统 ’ 这样的愿景或字眼。”

“ 特别是早期投资人，更关注潜在市场规模和抢占入口的速度，而不是急于影响盈利，所以他们愿意把钱投在某类 Agent 上。”

“ 但资本存在一种盲目的信任。”

“ 很多投资人是从 APP 市场走过来的，相信有一天会出现一个 Agent 平台，形成类似微信、iOS 级别的生态垄断。因此他们不愿意错过机会，而且存在 ‘ 你不投我就投 ’ 的竞争心理。”

“ 尤其是在当前市场环境下，资本方其实没有其它方向可以投。Agent 类项目就成了几乎唯一可以投资、还能击鼓传花的故事。”

“ 所以，有些产品即使不行也会被拿出来讲故事。因此融资估值并不与实际产出效率挂钩，而是与产品覆盖面、DAU、MAU 等指标挂钩。思路是先铺量，后续再做深。在公司内部，大家讨论的也是未来的提升，向老板讲的也是未来的故事，所以只要能带来可见的效率提升，大家都愿意试用。”

“ 在国内还有一个特点是，普通大众和客户对早期产品的 bug 和漏洞容忍度相对较高。”

“ 所以，投资端看到的是未来潜力，和当前体验之间存在时间差，这是客观存在的。但如果用户端的体验长期上不去，投资端很快会降温。这是一个动态博弈的过程。”

基模公司挤压则是 Agent 赛道乃至整个 AI 赛道过去、现在和未来都将一直面临的不确定性压力。

张森森表示，“ 大模型发展速度极快、日新月异，作为 Agent 供给侧给应用层带来的冲击很大。很多厂商，特别是千问、豆包等，每次迭代都会能力下沉，抹平通用层的一些差异，压缩了最初创造通用应用的生存空间。”

“ GPT-5 也有类似趋势，比如他们希望做教育改革，用 AI 帮助用户学韩语等，而这原本是多邻国、Speaker 等平台的垂直市场。”

王文广表示，“ 通用 Agent 的通用能力其实来自于大模型本身，绝大多数非基础模型公司做出来的 ToC 产品，其实都不具备壁垒，这导致 ToC 的产品最终有很大概率是被基础模型公司收割的，OpenAI 最新的 AgentKit 就是一个现实的正在发生的例子。”

业内普遍认为，类似 Manus 这类公司，实际上处在模型层和垂直应用层之间非常薄弱的工具层，但模型厂商和垂直厂商都容易对工具层形成挤压，所以它的竞争优势会非常脆弱。

王显表示，“ 不仅如此，虽然我是 Cursor 的长期付费会员，但也感觉到它的脆弱点很明显。”

“ Cursor 的优点在于交互体验确实比较好，比如内联对话、上下文定位等，早期的 Cursor 可以借此获得用户和粘性。”

“ 但 Cursor 没有生态绑定。而大厂比如微软有自己的生态，可以通过 Visual Studio 等工具形成绑定，再加上品牌信任度，大厂的关注度只会越来越高。或者一旦 Cloud Code、CodeX 等在大厂工具的交互层做一些优化，Cursor 的针对性就会被稀释。”

“ 所以，如果 Cursor 想维持优势，就不能只停留在交互和优化层面，而是必须和上下游开发流程深度绑定，走向更完整的产品闭环。例如：针对特定编程语言、框架和行业开发场景，提供深度优化和高精度上下文处理；绑定开发流程的全链路，从规划、生产到测试、部署都做集成；做成快速迭代、全流程协同的工具。”

王文广补充道，“ 大模型本身就带来了人机交互的变革，所以当前过多探索所谓的人机交互带来的价值不大，更重要的还是用大模型来解决实际的问题。”

资本叙事泡沫、基模公司挤压是全行业面临的普遍问题，但国内实际上还面临更多的限制。

要理解这一点，就要深入探讨前面提到的国内外 Agent 泡沫差异，在大模型和 Agent 时代，这个泡沫衍生出许多新的表象，但背后藏着不少老问题。

郭炜表示，“ 在国内做垂直 Agent 与在国外相比，困难并不主要来自 Agent 技术本身，而是行业环境的老问题。这与做 SaaS 或软件是同样的逻辑。”

“ 国内本身缺乏大型软件公司，SaaS 发展也并不成熟，这使得软件的整体价值感尚未充分体现。由于人力成本相对较低，软件在提高效率方面的价值不够凸显，继而 Agent 的价值也就难以被充分认可。”

付瑞吉表示，“ 国内各行业 SaaS 普及率低、软件生态割裂，导致不同企业情况各不相同，使得 Agent 的开发也不得不做大量定制，开发成本高。”

郭炜补充道，“ 毕竟 Agent 并不是凭空出现的一种全新事物，而是原有软件形态的延续，无论是 APP、SaaS，还是其他类型的软件。

张森森表示，“ 国外 SaaS 的理念和逻辑与中国不太一样，更强调结果（ result ）和集成（ integration ），注重整体集成度。特别是在北美、欧洲等地区的企业，更倾向于使用成熟的 SaaS 产品，很少自行研发，因此他们的接口基本都是通用的。”

“ 在这种情况下，国外在做 Agent 案例时更多考虑如何使用成熟的 API 协议，比如将 MCP、A2A 协议与现有的 ERP、CRM 进行集成，这对于他们而言成本相对较低。”

“ 国内软件生态更多是企业自研，而且企业与企业之间的协议差异很大，甚至同一企业内部的协议都可能不统一，数据打通难度极高。在这种复杂环境下，很难做出标准化、可复制的企业 Agent。即使在 A 企业验证成功，迁移到 B 企业时也很难快速部署。所以可复制性和大规模扩展性在国内 ToB Agent 的发展中被严重抑制，这是目前的关键制约因素。”

“ 这种情况下，企业很多时候不得不重复造轮子。”

“ 目前来看，只有方法论层面的东西是可复制的，比如流程设计思路、Agent 架构方法论等。但真正落地到企业使用层面，差距依然很大。”

既然各家企业都需要大量做自研，自然大概率会走向全栈型或通用型方向，很难推出在垂直场景中做出有突出竞争优势的产品。“ 所以，相比之下，国内更强调速度和覆盖率，因为市场很内卷，企业更倾向于快速占领用户心智，并尽可能覆盖更多场景。”

“ 或许未来随着类似 MCP 等协议的发展，情况会逐步改善，但至少在短时间内，我个人的判断是消极的。”

扩展到 ToB、ToC 和出海市场，则呈现普遍沉重的生存压力。B 端 SaaS 基础不足，限制了 Agent 的发展，创业公司无法接入生态，只能转战 C 端，C 端虽具传播性和资本叙事优势，却竞争激烈、留存差，因而最终企业纷纷选择出海，通过海外市场借力算力、合规与融资以谋求突围。

张森森表示，“ 国内 B 端用户情绪冷静，原因在于 B 端和 C 端用户诉求完全不同。企业采购强调 ROI 要明确，流程必须可控，功能要能管控。而通用 Agent 的案例往往任务定义模糊、场景识别度低、价值难以量化，所以很难支撑持续付费。”

“ 现在 B 端的通用型 Agent 多半是销售包装出来的。你会看到很多号称‘企业端 UI’、‘企业教育智能体’等，但真正拿到企业流程里用时，问题就暴露出来：性能稳定性不足、合规性不过关、可追溯性差。”

“ 真正能活下来的，一定是垂直+深度集成的方案。既要利用 Agent 的灵活性，又要在某个行业里做到合规，同时结合企业的需求与机制，这样才能真正落地。”

王显表示，“ 但相比国外，国内做垂直Agent是很困难的。垂直Agent要深耕某个领域做大做强，在国内很难搞，因为要穿越各种壁垒去获取数据，但国内金融、医疗、政务等行业的数据壁垒很高，合规审核很严格和复杂，即便企业愿意开放数据也要经过多次审批和脱敏。”

付瑞吉表示，“ 在国内获取高质量的垂直数据面临诸多障碍，比如高质量医疗数据分散于医院而无法共享。” 这一点知危较有体会，在与多位行业内医疗 AI 专家沟通时，经常提到的最大痛点就是数据隔离。

王显继续说道，“ 所以，国内大模型的训练速度就比国外要慢。”

“ 相比之下，国外很快就开始构建垂直 Agent。垂直领域的初创公司就可以直接使用 OpenAI 这种公共 API，但国内只能私有部署大模型，速度就进一步慢下来。”

“ 甚至可以说，国内模型厂商现在都主推的开源和轻量化大模型的策略，其实刚好是适应了国内的特有情况。”

“ 更令人担忧的是，大模型发展后期，国内大模型的发展会面临更加严峻的挑战，因为整体数据集质量太差了。”

“ 其次，客户差异、需求差异和定制化成本也比较高。”

“ 国内的同一垂直行业的不同企业，具有上述的 ToB SaaS 行业的所有缺陷，没有统一的标准化接口。比如国内的 CRM 系统到底有多少个？随便在网上搜一下，就是成千上万，甚至到了每家公司里面还要再定制，做私有化、二次开发。”

“ 而国外的 Agent 或垂直模型只要适配统一的标准化 SaaS，即可覆盖大多数企业的业务场景。在这样的环境下，Agent 的复制性和扩展性要比国内高得多。”

“ 第三是大厂作风，国内的行业生态也是封锁的，大厂都倾向于自建。头部企业也是自己做垂直 Agent，不会跟其他公司一起做，使得创业公司很难切入核心的场景，无法接入行业生态。”

“ 相比之下，国外其实有很多开放生态与第三方市场的土壤，所以小公司与中小公司是有机会去做某个垂直细分领域来生存的。”

“ 最后在商业化周期上，也存在明显差异。垂直 Agent 的特点是落地初期需要长周期的行业积累和客户教育，本质上是 ‘ 慢工出细活 ’。国内投资环境，整体上缺乏耐心，更追求短期回报。这对垂直 Agent 不太友好，因为它们很难在短时间内看到显著的商业回报。”

“ 最终，因为 ToB 的场景成本和投入太高，实现的可能性太低，可复制性太低，导致整个中国市场更倾向于做 ToC，而且 ToC 是最容易跟资本讲故事的。”

“ 但我看了一堆 ToC 产品，可以说没有一个产品是真正能让人持续付费订阅的。”

而为什么国内有很多企业在做 ToC 端的出海，甚至 Manus 把公司总部也搬迁到新加坡，也就不难理解了。

王显表示，“ 为什么那么多企业选择在海外做，有多个原因。”

“ 第一，国内市场竞争压力大。以 Manus 这类产品为例，国内通用型 Agent 产品很容易被竞争厂商或大厂快速复制。核心功能可能在一夜之间被模仿，导致差异化难以维持。”

“ 第二，用户群体的流失和留存。国内用户更容易切换到更好的同类产品，这是国内市场的一个特点，即产品的替代成本较低。通用型 C 端 Agent 往往具有 ‘ 一次性体验 ’ 的特征，缺乏复用价值。早期如果用户主要来自国内，一旦竞争加剧、出现价格战，产品在国内的战略市场会很快消失。”

“ 第三，Manus 等公司会考虑数据隐私监管、算力供应等方面的问题。海外算力供应条件更好，国内算力会有 ‘ 卡脖子 ’ 问题。而且，要对标国际市场的话，新加坡无论是金融还是国际业务、跨境支付、多语言市场，都是一个比较好的纽带，往下走可以下沉到东南亚市场，往上走可以

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关联资讯:

用户登录