Perplexity CEO最新洞察:从搜索到执行,推理模型正在接管生成式AI的下一站
推理模型正逐步接棒预训练范式,成为生成式系统进入部署阶段的关键转折点。Perplexity 联合创始人兼 CEO Aravind Srinivas 在一场哈佛对谈中指出,当前行业焦点已从扩大模型参数与语料规模,转向构建具备执行力与反馈机制的系统架构。
他表示,这场范式转移不仅关乎模型本体的能力提升,更牵动整个 AI 工程流程的重构,从数据采集、用户反馈到任务调度与系统集成,逐一转入推理范式的适配轨道。
Srinivas 所领导的团队正将语言模型作为系统构件嵌入搜索问答场景,围绕真实使用路径持续迭代其 agent 能力与部署逻辑。其判断核心在于:通用预训练模型构建了语言理解的基底,但无法直接转化为可用系统,唯有借助推理机制与行为反馈,才可落地为具备自主任务执行能力的产品形态。在这一背景下,训练范式正从 token 预测走向行为规划,模型目标不再是模仿语言,而是解决任务。
以 Perplexity、DeepSeek 等系统为代表的推理模型体系,正在形成新的产品架构共识:用结构化任务路径替代文本拟合,用真实反馈闭环替代离线评估,在系统工程层解构模型边界。
这一转变也促使产业链重构资源配置策略,从 UI 包装先行、开源模型试验,到行为路径验证后再行训练与部署,真正建立起“任务能力—系统结构—资源决策”三位一体的闭环机制。
从全球系统架构的推进路径来看,Srinivas 所面对的问题正是整个 AI 工程迈入执行时代的典型缩影——在模型能力尚未定义清晰、反馈机制仍未闭环的条件下,如何推进具备部署意义的阶段性系统建设。
▍
推理模型接棒预训练范式
过去两年,生成式预训练模型在语言理解与生成方面取得显著突破,但这一范式已触及阶段性边界。行业重心正从扩大语料与参数规模,转向提升系统执行能力与任务推理深度。新一代模型将更依赖后训练阶段的结构化调优,以支持复杂逻辑链的处理、任务流程的执行及网页环境下的行为操作。这一趋势已成为全球头部模型实验室的主要研究方向。
预训练提供了模型对世界常识与语义结构的底层掌握,但若要构建真正具备实用价值的智能系统,仍需在垂直任务场景中实现能力精修与结构落地。以 Perplexity 为代表的系统正围绕真实使用路径进行再训练,目标是在产品层实现连续价值传递。与此同时,中国开源体系的快速演进也对全球节奏形成牵引,DeepSeek 的出现已成为北美团队显著对标压力之一。
DeepSeek 的突破不仅体现在工程能力上——包括系统编译、浮点运算优化、内核调度及低端 GPU 上的大模型部署能力,更关键在于提出并实现了“推理模型”的具象路径。其发布的 DeepSeek Zero 展示了在无监督环境中,通过强化学习引导模型产生具备执行力的推理行为,为自动化 agent 的训练机制提供了结构性模板,也为行业探索能力边界打开了新通道。
在产品与研究协同推进的路径中,部分团队已引入结构化机制,将前沿研究聚焦于模型任务能力与系统性能优化,产品端则专注于界面设计、信息组织与用户体验,借助问答搜索融合场景测试表达策略与推理流程。这一“双螺旋”机制确保每轮迭代均具备明确实验验证基础,形成稳定的反馈与更新节奏。
在资源调度层面,领先企业基于对模型机制的理解,将系统反馈信号直接转化为计算资源决策:当小规模推理 agent 实验取得正向验证,便快速放大部署规模,直接采购万张 GPU 构建完整推理系统。其背后逻辑建立在对 AI 模型性能与经济回报之间强关联的深度认知。
同时,一种“延迟训练”策略也在部分公司内部被验证有效:初期通过 UI 包装构建原型,先行获取用户数据与行为反馈,再择机启动大模型训练,利用开源模型的性能进展弥合初期资源限制。2023 年,这一策略在多个项目中获得验证,并已被纳入产品设计、技术投入与资本配置的主流程中。
▍
任务路径主导的数据重构范式
模型训练的重心正在从大规模语料抓取转向具象任务路径的构建。在任务导向的训练范式下,模型能力的提升不再依赖复刻人类语言表达,而聚焦于执行链式行为——包括数学推理、代码生成、网页点击、文件处理等具体操作。训练样本以“任务行为路径”为单位组织,形成 agent 系统推理能力的关键基座。
这一转变也带来了数据来源与训练目标的深度变化。企业普遍放弃自建预训练模型,将通用语义建构交由开源社区与闭源实验室完成,自身则聚焦在此基础上构建封闭式微调体系。调优任务集中于结构化生成能力与系统性操作流程,如摘要提取、格式转换、文档重写与上传执行等模块性技能,意在打造可部署、可评估的智能组件。
在训练数据合规性上,尽管围绕著作权与生成内容的争议仍存,例如《纽约时报》所发起的诉讼尚在推进中,行业实践已逐步形成共识:只要输出未显著复现原始内容,即可被视为“合理使用”。为此,多数企业采用隔离语料、转换输出格式、强调任务导向的策略来降低潜在风险,主动规避语义复刻路径。
模型数据来源亦在机制上全面重构。真实用户的查询行为与交互反馈成为最核心的能力训练信号,点赞、修改、点击等行为被系统性采集,用于指导模型排序与强化过程。同时,系统也基于历史回答表现,动态调整信息源的抓取策略——优先提升高价值内容的爬虫频次与索引深度,形成反馈驱动的数据供给机制。
人工评估依然是训练流程不可替代的环节。常见流程为:并列呈现两个模型输出,由人工判定优劣,进一步用于训练排序模型或标注样本质量,在摘要精度、多轮对话连贯性与任务响应合理性等任务中,仍需人工信号作为质量锚点。
与此并行的是合成数据机制的系统性引入。训练流程中,大模型已承担“教师模型”角色,对小模型输出进行打分、结构标注或行为分类,以生成微调用的小样本数据集。此机制在构建 UI 分类器等任务中效果尤为显著。以用户意图识别为例,通过大模型自动识别金融、旅游、购物等查询类别并回传标注,再由小模型模仿学习,形成自我监督闭环。
该路径不仅提升了数据生产效率,也奠定了用户意图理解、检索路径规划与响应行为分流等系统能力的训练基础,成为支撑推理型 agent 架构的关键技术底座。
▍
搜索替代路径与系统资源重构
算力资源已成为当前 AI 系统扩展能力的核心约束。早期基础模型的训练高度依赖超大规模算力支持,即便存在方法层创新,若缺乏工程调度与资源后端,成果往往难以形成产业影响力。与学术机构相比,平台型科技企业在算力组织、系统工程与产品部署方面具备更强统合能力,也因此吸引大量研究人才从实验室迁移至产业端,寻求高执行力的落地平台。
尽管底层大模型训练仍被少数资源集中型团队主导,但在模型抽象层之上的系统架构设计,仍保有广阔创新空间。从 Agent 框架构建、任务评估机制、上下文协议标准化,到模拟环境设计与多模块协同策略,系统价值更多取决于结构效率而非参数规模。这一层的研究不依赖极限算力,更适合在产学之间建立长线合作路径。
面对搜索引擎巨头的存量优势,新系统普遍选择避开算力正面碰撞,转向机制异构的路径切入。其基本判断是:一旦大型平台将生成式系统部署至全域入口,查询量所带来的系统负荷将呈非线性放大,导致基础设施成本结构性失衡。与此同时,高品牌溢价平台在面对误生成结果时容错空间极小,内容安全机制无法有效闭环的前提下,其策略迭代频率受限,进一步削弱系统更新能力。
更深层次的错位来自商业模型本身。传统搜索平台依赖点击导向的广告变现路径,CPC 模型与生成式问答系统的行为机制难以直接映射。生成内容不具备标准化跳转目标与转化路径,广告投放的 ROI 难以衡量,广告预算逐步向更可控渠道转移。与此同时,搜索广告具备高毛利、低边际成本优势,而生成式系统部署与运行成本高企,导致单位收益比明显劣后,形成结构性商业落差。
正是这种路径与结构的错位,为新兴系统打开了机会窗口。相比动辄重构商业逻辑的大型平台,轻结构团队可跳过既有依赖,直接构建“技术—产品—商业”的快速闭环。在技术实验与商业路径之间建立高速反馈机制,使问答搜索融合系统具备现实可行的替代潜力。
部分团队采用“先用后训”策略,即初期以开源模型搭建系统框架,获取用户交互与行为数据,在系统结构稳定后再转向自研模型体系。该路径显著降低早期资金消耗,同时建立在对开源能力演进的前瞻判断基础上。随着开源模型逼近闭源性能上限,工程替代的可行性与实用性已被逐步验证。
搜索系统的收入结构当前仍在重构期,用户点击路径尚未稳定重构,AI 系统在人均变现效率上与传统搜索存在显著差距。无论是 Gemini 等订阅模型,还是嵌套于搜索入口的预览式生成系统,当前商业化能力尚未具备广告系统的成熟支撑。搜索结构性变革仍处在早期窗口期,而这一阶段,正是新路径实验的关键周期。
▍
拟人化误用与教育结构重构
生成式 AI 的实际使用路径,正在系统性偏离其原始设计目标。自 Eliza 聊天程序以来,用户便倾向将语言系统视为具备情感理解与互动能力的“类人存在”,即使底层逻辑完全建立在统计与预测基础上。当代大模型虽被明确定位为“对话式搜索”或任务型助手,用户仍频繁构建出角色扮演式的交互场景,拟人化使用模式在多个平台中持续增长,难以仅靠界面设计或输出约束加以彻底规避。
这种误用行为的普遍性也引发对系统伦理边界的关注。生成式系统已在婚姻、医疗等高度私人化场景中被非预期使用,即便系统未直接给出建议,内容呈现或路径引导本身已构成对决策过程的介入。部分团队尝试以“引用驱动型问答”限制系统角色定位,但在使用惯性与拟人理解框架下,用户误用仍广泛存在。
这一趋势在个体案例中表现尤为显性。曾有角色型 AI 产品在真实事件中被卷入争议:一位年轻用户在结束生命前高频使用该系统,虽然系统责任难以界定,但沉浸式交互模式已引发对“情感接口依赖”的广泛担忧。尽管产品设计避免模拟情绪反应,用户依然将其视为情感替代体。部分开发团队已开始回归以“行为导向、工具导向”为核心的产品哲学,试图用功能边界取代人格模拟,成为新一轮设计共识。
在未成年用户群体中,风险复杂性进一步放大。儿童用户绕过系统限制的能力往往被低估,例如通过多语言混输规避语义识别,或分段提示引导模型生成敏感内容。当前行业尚缺乏统一内容审查机制,“交互白名单”“内容频次拦截”等防护策略仍在试验阶段,但监管与风险控制需求已日益迫近。
与此同时,教育系统正经历由生成式 AI 引发的结构性转变。不仅教学手段需围绕 AI Agent 所提供的个性化能力进行重构,更关键的是教育目标本身正在迁移。在信息可得性极高的背景下,传统以知识灌输为核心的教育模式逐步失效,“问题定义力”与“判断标准构建”成为教学系统的核心输出。
任务设计正从重复练习与模板化答案转向结构思维与探索导向。教师角色也正在从知识评分者转为学习路径的激发者,系统应围绕“提出 AI 无法直接解决的问题”展开设计,让学生在提出、验证与修正问题的过程中,构建具备解释力与审美张力的知识结构。
随之提升的,是对表达力与结构化认知的需求。从数学模型到伦理议题,真正激发学习动机的,往往不是知识本身的难度,而是其呈现方式的复杂性与美感。“如何组织复杂信息、表达认知张力”正成为未来最稀缺的学习能力之一。
教育结构的底层逻辑也在同步迁移:越来越多的本科生已开始承担原属研究生阶段的开放任务,教育系统正在由“传授知识”向“唤起能力”转变。面对 AI 工具普及,教育的独立价值将由是否能赋予学生结构性认知与判断力来决定,而非知识点掌握本身。
▍
能力闭环瓶颈与 AGI 路径分歧
关于 AGI 的能力定义与路径选择,业界已形成结构性分歧,这一争议不再停留于学术层面,而直接影响到企业在系统架构与产品策略上的根本判断。尽管生成式 AI 已在多个垂直任务中展现初步执行能力,但要实现具备通用性与自治决策力的系统,仍面临关键断点。真正的挑战不在于某项能力的单点突破,而在于“任务理解—计划生成—动作执行—反馈评估”四个环节的完整闭环是否能够建成。
这一断裂在产品实践中表现为:即使底层模型已更新,如 GPT-4 被替换为 O 系列,用户仍普遍停留在旧版本标签下的性能感知中,对“推理模型”“O3”等术语缺乏理解。这意味着系统能力的实际跃迁被前端体验屏蔽,模型更新价值无法穿透至用户侧,从而在产品路径中造成“能力不可见”的结构遮蔽。
基础模型的研发方正在通过平台化路径重构生态控制力,即同时掌握模型本体、用户界面与数据反馈闭环,形成从行为采集到能力演进的自主循环。这种“模型即平台”的结构强化了数据主权与调优能力,也让单纯依赖 API 的公司面临商品化与价值链外溢的风险。
在此背景下,开源模型的可行性获得重新评估。以 DeepSeek 为代表的项目通过结构创新与推理机制构建,在非极限算力条件下实现能力逼近,打破了“开源只能做轻量模型”的旧有认知。当前部分开源系统已具备在部署效率、能力呈现与模块架构上的独立价值,成为产业链中具备战略选择意义的变量。
与此同时,模型系统与外部软件环境之间的接口边界依然模糊。当前尚缺乏统一协议来实现模型与桌面软件、Web App、第三方服务的顺畅衔接,调用权限、上下文封装与行为反馈标准未被统一,成为平台间博弈的结构焦点。谁掌握最终执行路径的控制权,决定了流量与收益的分配模式,也直接影响平台对 agent 系统的态度。
例如,Amazon、Instacart 等依赖广告变现的平台通常对外部 agent 系统保持克制态度,避免 agent 绕过前端完成交易,破坏其推荐系统与广告定价模型。而 Uber 等按次计费平台对 agent 嵌入接受度更高,甚至将其视为增量流量通道。平台是否允许被“代理”或“封装”,本质上取决于其商业结构与收益分配模式。
在系统架构演进过程中,模块化抽象粒度成为设计策略中的核心变量。早期推理系统普遍采用显式模块划分——排序、检索、摘要等组件独立调用,部分产品甚至通过角色命名(如 Sir Johnny、Mother Dinosaur)标识模块职能。但随着复杂度上升与运维压力增加,系统结构正向调度集成倾斜,主模型承担更多任务分发与逻辑判断职能,追求路径收敛与稳定性。
模块设计的颗粒度折射出团队对“可维护性—任务复杂度—系统弹性”三者关系的理解。组件划分过细容易引发接口不稳定、边界模糊等协作瓶颈,划分过粗则削弱系统的适配灵活性与功能复用能力。这一策略无法靠通用模板解决,更依赖团队的工程判断与系统直觉。
从能力判定的角度出发,AGI 的真正成立并不在于模型是否能答对一个问题,而在于其是否具备提出一套可执行方案,并获得组织信任的能力。例如,若模型能够制定一条六个月的产品路线图,解释其资源配置依据,并促使管理层投入百万元预算,即构成“可信任的自治执行体”的雏形。这一标准远高于传统答题型 AI,更接近系统级决策支持。
限制这一目标实现的关键因素,在于部署后的高质量反馈链条仍未建成。即使模型能给出合理建议,如代码修复方案,系统通常无法自动验证其是否真正解决问题,或是否引入新的潜在错误,导致“行为结果—能力更新”之间缺乏稳定传导路径。
一种潜在解决思路是:构建容错的真实部署环境,引入强化学习机制,使行为结果成为训练反馈信号,进而实现“任务执行—后验评估—能力微调”的动态闭环。这一路径的挑战在于如何控制部署风险、评估延迟与成本,但一旦机制得以搭建,模型将从静态能力体跃迁为具备自我校正能力的动态执行节点,构成通向 AGI 的现实工程通路。
如果你也在思考从“能生成”到“能交付”的能力跃迁,欢迎加入这场关于推理模型与 Agent 架构的深度讨论:
7 月 18 日,「2025 生成式 AI 全球化高峰论坛」将汇聚全球最具实战经验的 AI 创始人与系统架构师,共同探讨技术转折期的落地路径与商业模型;7 月 19~20 日 非凡学堂实战营也将进一步拆解产品打造、增长闭环与出海打法,为你提供从 0 到 1 的系统方法论。
主办方邀请了 88 位来自全球化一线的 AI 创业者与产业操盘者,他们既是细分赛道中的探索者,也是推动 Agent-as-a-Service 真正落地的中坚力量:
(来源:新浪科技)