Exa获2.5亿美元融资,打造Agent原生的“Google”
文 | 阿尔法公社
最近一年,Agent真正进入了ToC和ToB的实际生产力领域。在ToC端,Agent成为人们的个人助理和代码助手。作为个人助理,它帮人们完成搜索、写作、购物、旅行规划。作为代码助手,它帮开发者们直接完成任务。
在ToB端,Agent进入销售线索挖掘、客户研究、招聘、投研、法务尽调、代码开发、客服、数据分析等工作流。
Agent的核心能力可以拆成三件事:理解目标、获取信息、执行动作。模型负责理解和推理,工具负责行动,而搜索负责从外部世界获取信息。获取信息是Agent的核心能力,没有高质量信息,Agent很容易变成“高智能但低事实性”的系统。
就像当年Google用搜索重新定义了人类使用的互联网,成为科技行业事实上的基础设施。在Agent范式逐渐变成主流的今天,它也需要一个Agent原生的“Google”(搜索)。
一家叫Exa的公司,把目标瞄准向“AI-native search”,他们想成为AI和Agent的默认信息基础设施。
最近,Exa完成2.5亿美元C轮融资,估值22亿美元,由a16z领投,Benchmark、Lightspeed、Y Combinator参投。
它们宣称已服务了Cursor、Cognition、HubSpot、OpenRouter、Monday.com等AI头部公司,以及40万+开发者、5000+公司。
AI时代需要把搜索从底层重新做一遍
Exa由Will Bryk和Jeffrey Wang创立,他们早在哈佛读本科期间就相识,都是计算机相关背景,也是一起做过技术项目。毕业后,Will Bryk曾在机器学习创业公司Cresta做软件工程师,Jeffrey Wang曾在Plaid工作。2021年,两人创立Exa(最早叫Metaphor)。
图片来源:Exa
2021年刚创立Exa时,他们已经认为世界需要比Google更好的搜索。2022年11月,Exa上线第一版搜索引擎,约两周后ChatGPT发布;团队很快意识到:AI应用会比人类更需要搜索。
为什么AI或Agent需要专属的搜索?面向Agent的搜索,与面向人的Google搜索有什么不一样?
传统Google搜索是用户输入短关键词,搜索引擎返回链接列表,用户自己点击、浏览、判断、整合。这个系统围绕人类行为优化。
Agent搜索要正文、摘要、结构化字段、JSON、引用、置信度、来源追踪。人类可以自己打开网页读;Agent需要系统先把网页清洗、抽取、压缩成模型可用的上下文。人类可以接受搜到“关于某类对象的文章”;Agent往往需要对象本身,比如公司列表、人列表、产品列表、代码片段、新闻事件。
但是现在的一些Agent或AI搜索,其实底层仍然依赖Google/Bing的人类搜索结果,上层只是用大模型加了摘要,并没有重建搜索本身。
Exa认为,AI时代需要把搜索从底层重新做一遍:从网页爬虫(crawler)、索引(index),到检索模型(retrieval model)、向量数据库(vector database)、内容抽取(content extraction),再到 agentic research pipeline。
换句话说,从抓网页、建索引、理解查询与网页的语义关系,到用向量数据库做大规模语义检索、从网页中抽取可供模型使用的证据,再到让Agent多轮搜索、验证并生成结构化结果,整条链路都要重构。
上一代搜索战争由“为人类组织信息”的公司赢得,下一代很可能由“为Agent组织信息”的公司赢得。
Exa还有一个判断:未来Agent对搜索的需求会超过人类。人类每天搜几次、几十次;Agent 完成一个任务可能连续搜索几十次、上百次。未来大模型发起的搜索量可能达到今天Google搜索量的1000倍。
那么,区别于那些底层依赖人类搜索结果的AI搜索,Exa的能力有什么不一样?
可以从两条线看:底层系统怎么建,它的产品怎么帮助AI/Agent获取信息。
图片来源:Exa
先看底层系统。Exa把搜索基础设施拆成三件事:网页抓取、文档处理、查询服务。
第一步是网页抓取。Exa自建crawler,持续发现新URL(链接),再用分布式机器和IP抓取网页,通过自建HTML parser(网页解析器)处理页面,最终将数据存入数据库。Exa称,其爬虫追踪5000亿+URL。这里的难点包括规模,也包括网页格式混乱、内容持续变化、低质量页面占比高,系统需要判断哪些页面值得进入高质量索引。
第二步是文档处理。网页进入系统后,会被加工成多种可检索形态,包括关键词索引、BM25(一种经典关键词相关性算法)、metadata(元数据)、highlights(高相关片段)和语义向量。Exa采用关键词检索与neural search(神经网络语义搜索)的混合路线,用来处理精确匹配、长查询、语义搜索,以及人物、公司、代码等实体搜索。
第三步是查询服务。用户或Agent发起搜索时,系统要兼顾低成本、高QPS(每秒查询数 )、低延迟,也要让复杂查询获得更多计算资源。为此,Exa自建vector database,并用聚类、嵌套式向量、二值量化、SIMD(CPU指令级并行优化)、Rust等方式提升检索效率。
搜索流程上,Exa用Canon这套编排系统,把查询改写、检索、重排序、去重、内容读取和来源追踪等模块组合起来,支撑Fast Search、Deep、Websets、Agent API、Monitors等不同产品形态。
Exa的判断是,长期看,能吸收更多计算、并随计算增加持续变强的系统会胜出。在它看来,传统关键词搜索更接近静态系统,增加算力很难带来根本变化;embedding-based neural search(基于向量表示的神经网络搜索)可以通过更多训练数据、更多GPU和更强模型持续迭代。
落到产品层,Exa的能力对应Agent获取信息的使用路径。
首先是找信息。Agent 可以通过Exa Search API搜索开放网页,获取最新信息,补足模型参数中的旧知识。
接着是读网页。搜索到网页之后,Agent还需要读取内容。Exa的Contents API,以及Search API里的contents参数,可以从网页中提取正文、摘要、highlights和 metadata,把原本杂乱的网页内容整理成大模型可直接使用的上下文。
遇到复杂任务时,搜索会进入更深的研究模式。Exa在Search API中提供deep、deep-reasoning等搜索类型,用更多查询和推理步骤做结果综合;同时,它也推出了更高算力版本Deep Max,面向研究、尽调、市场分析和线索挖掘等任务。
最后是结构化。通过Agent API、Websets、Answer API、Research相关能力,Exa 可以把搜索和网页读取结果整理成JSON、表格或字段列表,比如公司名、融资轮次、创始人、近期动态、来源链接等,方便接入CRM、投研系统或Agent workflow。Monitors则负责持续追踪变化。
Exa自建这些环节,是因为Agent 搜索对实时性、完整性、结构化和可验证性的要求更高。控制crawler、index、检索模型、向量数据库和内容抽取,能让Exa更主动地优化召回范围、更新频率、延迟、单位成本和结果格式。若这些能力持续积累,就会形成比单一模型或单一API更难复制的系统壁垒。
应用场景上,Exa的重点是嵌入Agent和企业工作流。公司称,目前已有5000+公司使用Exa,场景覆盖代码、销售、研究和AI应用基础设施。
在coding agent场景,Cursor、Cognition、CodeRabbit等需要搜索技术文档、API reference、GitHub issue、release notes等内容,帮助Agent理解外部代码环境,再生成修改建议或执行任务。
在GTM和销售场景,HubSpot、11x、WebFX等会用Exa找公司、找人、补全线索和监控客户动态。例如按行业、地区、融资阶段、技术栈筛选潜在客户,再补充决策人、近期动态和来源链接,接入CRM或销售自动化流程。
在市场研究、投研和企业研究场景,Exa Deep、Deep Max、Websets可以读取新闻、公司官网、融资稿、招聘信息、公告和行业资料,并输出表格、字段列表或研究摘要。
当Agent逐渐成为主流,它的基础设施蕴含巨大机会
Agent逐渐成为主流,带来了范式上的转变。
在应用上,人们与AI的交互不再只是让它完成工作流里的一个环节,而是把一个任务交给它,让它独立完成,甚至还能让多个Agent并行完成一个到多个任务。此前,我们可以把AI当成一个单纯的工具,现在能够当成一个AI员工,AI同事。
在商业模式上,AI将从卖Token,卖订阅席位向卖结果转变,因为Agent真的逐渐变得能够独立交付高质量的结果。
当Agent变成AI的主流应用范式后,它将推动配套的基础设施一起改变,无论是云端和端侧的算力,还是管理工具调用的“互联网”,包括本次介绍的转为Agent打造的搜索引擎Exa。这里面无疑蕴藏着巨大的创新创业机会。
(来源:钛媒体)
