Exa获2.5亿美元融资，打造Agent原生的“Google”

2026年06月04日,19时54分02秒科技新知阅读 4 views 次

文 | 阿尔法公社

最近一年，Agent真正进入了ToC和ToB的实际生产力领域。在ToC端，Agent成为人们的个人助理和代码助手。作为个人助理，它帮人们完成搜索、写作、购物、旅行规划。作为代码助手，它帮开发者们直接完成任务。

在ToB端，Agent进入销售线索挖掘、客户研究、招聘、投研、法务尽调、代码开发、客服、数据分析等工作流。

Agent的核心能力可以拆成三件事：理解目标、获取信息、执行动作。模型负责理解和推理，工具负责行动，而搜索负责从外部世界获取信息。获取信息是Agent的核心能力，没有高质量信息，Agent很容易变成“高智能但低事实性”的系统。

就像当年Google用搜索重新定义了人类使用的互联网，成为科技行业事实上的基础设施。在Agent范式逐渐变成主流的今天，它也需要一个Agent原生的“Google”(搜索)。

一家叫Exa的公司，把目标瞄准向“AI-native search”，他们想成为AI和Agent的默认信息基础设施。

最近，Exa完成2.5亿美元C轮融资，估值22亿美元，由a16z领投，Benchmark、Lightspeed、Y Combinator参投。

它们宣称已服务了Cursor、Cognition、HubSpot、OpenRouter、Monday.com等AI头部公司，以及40万+开发者、5000+公司。

AI时代需要把搜索从底层重新做一遍

Exa由Will Bryk和Jeffrey Wang创立，他们早在哈佛读本科期间就相识，都是计算机相关背景，也是一起做过技术项目。毕业后，Will Bryk曾在机器学习创业公司Cresta做软件工程师，Jeffrey Wang曾在Plaid工作。2021年，两人创立Exa（最早叫Metaphor）。

图片来源：Exa

2021年刚创立Exa时，他们已经认为世界需要比Google更好的搜索。2022年11月，Exa上线第一版搜索引擎，约两周后ChatGPT发布；团队很快意识到：AI应用会比人类更需要搜索。

为什么AI或Agent需要专属的搜索？面向Agent的搜索，与面向人的Google搜索有什么不一样？

传统Google搜索是用户输入短关键词，搜索引擎返回链接列表，用户自己点击、浏览、判断、整合。这个系统围绕人类行为优化。

Agent搜索要正文、摘要、结构化字段、JSON、引用、置信度、来源追踪。人类可以自己打开网页读；Agent需要系统先把网页清洗、抽取、压缩成模型可用的上下文。人类可以接受搜到“关于某类对象的文章”；Agent往往需要对象本身，比如公司列表、人列表、产品列表、代码片段、新闻事件。

但是现在的一些Agent或AI搜索，其实底层仍然依赖Google/Bing的人类搜索结果，上层只是用大模型加了摘要，并没有重建搜索本身。

Exa认为，AI时代需要把搜索从底层重新做一遍：从网页爬虫（crawler）、索引（index），到检索模型（retrieval model）、向量数据库（vector database）、内容抽取（content extraction），再到 agentic research pipeline。

换句话说，从抓网页、建索引、理解查询与网页的语义关系，到用向量数据库做大规模语义检索、从网页中抽取可供模型使用的证据，再到让Agent多轮搜索、验证并生成结构化结果，整条链路都要重构。

上一代搜索战争由“为人类组织信息”的公司赢得，下一代很可能由“为Agent组织信息”的公司赢得。

Exa还有一个判断：未来Agent对搜索的需求会超过人类。人类每天搜几次、几十次；Agent 完成一个任务可能连续搜索几十次、上百次。未来大模型发起的搜索量可能达到今天Google搜索量的1000倍。

那么，区别于那些底层依赖人类搜索结果的AI搜索，Exa的能力有什么不一样？

可以从两条线看：底层系统怎么建，它的产品怎么帮助AI/Agent获取信息。

图片来源：Exa

先看底层系统。Exa把搜索基础设施拆成三件事：网页抓取、文档处理、查询服务。

第一步是网页抓取。Exa自建crawler，持续发现新URL(链接)，再用分布式机器和IP抓取网页，通过自建HTML parser（网页解析器）处理页面，最终将数据存入数据库。Exa称，其爬虫追踪5000亿+URL。这里的难点包括规模，也包括网页格式混乱、内容持续变化、低质量页面占比高，系统需要判断哪些页面值得进入高质量索引。

第二步是文档处理。网页进入系统后，会被加工成多种可检索形态，包括关键词索引、BM25（一种经典关键词相关性算法）、metadata（元数据）、highlights（高相关片段）和语义向量。Exa采用关键词检索与neural search（神经网络语义搜索）的混合路线，用来处理精确匹配、长查询、语义搜索，以及人物、公司、代码等实体搜索。

第三步是查询服务。用户或Agent发起搜索时，系统要兼顾低成本、高QPS（每秒查询数）、低延迟，也要让复杂查询获得更多计算资源。为此，Exa自建vector database，并用聚类、嵌套式向量、二值量化、SIMD（CPU指令级并行优化）、Rust等方式提升检索效率。

搜索流程上，Exa用Canon这套编排系统，把查询改写、检索、重排序、去重、内容读取和来源追踪等模块组合起来，支撑Fast Search、Deep、Websets、Agent API、Monitors等不同产品形态。

Exa的判断是，长期看，能吸收更多计算、并随计算增加持续变强的系统会胜出。在它看来，传统关键词搜索更接近静态系统，增加算力很难带来根本变化；embedding-based neural search（基于向量表示的神经网络搜索）可以通过更多训练数据、更多GPU和更强模型持续迭代。

落到产品层，Exa的能力对应Agent获取信息的使用路径。

首先是找信息。Agent 可以通过Exa Search API搜索开放网页，获取最新信息，补足模型参数中的旧知识。

接着是读网页。搜索到网页之后，Agent还需要读取内容。Exa的Contents API，以及Search API里的contents参数，可以从网页中提取正文、摘要、highlights和 metadata，把原本杂乱的网页内容整理成大模型可直接使用的上下文。

遇到复杂任务时，搜索会进入更深的研究模式。Exa在Search API中提供deep、deep-reasoning等搜索类型，用更多查询和推理步骤做结果综合；同时，它也推出了更高算力版本Deep Max，面向研究、尽调、市场分析和线索挖掘等任务。

最后是结构化。通过Agent API、Websets、Answer API、Research相关能力，Exa 可以把搜索和网页读取结果整理成JSON、表格或字段列表，比如公司名、融资轮次、创始人、近期动态、来源链接等，方便接入CRM、投研系统或Agent workflow。Monitors则负责持续追踪变化。

Exa自建这些环节，是因为Agent 搜索对实时性、完整性、结构化和可验证性的要求更高。控制crawler、index、检索模型、向量数据库和内容抽取，能让Exa更主动地优化召回范围、更新频率、延迟、单位成本和结果格式。若这些能力持续积累，就会形成比单一模型或单一API更难复制的系统壁垒。

应用场景上，Exa的重点是嵌入Agent和企业工作流。公司称，目前已有5000+公司使用Exa，场景覆盖代码、销售、研究和AI应用基础设施。

在coding agent场景，Cursor、Cognition、CodeRabbit等需要搜索技术文档、API reference、GitHub issue、release notes等内容，帮助Agent理解外部代码环境，再生成修改建议或执行任务。

在GTM和销售场景，HubSpot、11x、WebFX等会用Exa找公司、找人、补全线索和监控客户动态。例如按行业、地区、融资阶段、技术栈筛选潜在客户，再补充决策人、近期动态和来源链接，接入CRM或销售自动化流程。

在市场研究、投研和企业研究场景，Exa Deep、Deep Max、Websets可以读取新闻、公司官网、融资稿、招聘信息、公告和行业资料，并输出表格、字段列表或研究摘要。

当Agent逐渐成为主流，它的基础设施蕴含巨大机会

Agent逐渐成为主流，带来了范式上的转变。

在应用上，人们与AI的交互不再只是让它完成工作流里的一个环节，而是把一个任务交给它，让它独立完成，甚至还能让多个Agent并行完成一个到多个任务。此前，我们可以把AI当成一个单纯的工具，现在能够当成一个AI员工，AI同事。

在商业模式上，AI将从卖Token，卖订阅席位向卖结果转变，因为Agent真的逐渐变得能够独立交付高质量的结果。

当Agent变成AI的主流应用范式后，它将推动配套的基础设施一起改变，无论是云端和端侧的算力，还是管理工具调用的“互联网”，包括本次介绍的转为Agent打造的搜索引擎Exa。这里面无疑蕴藏着巨大的创新创业机会。

(来源：钛媒体)

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

AI时代需要把搜索从底层重新做一遍

当Agent逐渐成为主流，它的基础设施蕴含巨大机会

关联资讯:

用户登录