曝Anthropic几周内将推两大深度推理模型,可无缝切换思考模式、调用外部工具

2025年05月15日,21时02分28秒 科技新知 阅读 6 views 次

编译 | 金碧辉

编辑 | 程茜

智东西5月15日消息,据The Information昨日傍晚报道,继OpenAI、谷歌之后,AI独角兽Anthropic即将推出深度推理模型,推出Claude Sonnet和Claude Opus两大模型升级版本,全球AI竞赛进入“深度思考”新阶段。

据知情人士透露,Anthropic将通过“推理-工具调用”动态切换机制,该机制可自主发现问题并修正错误,将AI系统的自主决策能力推向新高度。该技术已在代码生成、市场分析等复杂场景验证效能,Anthropic计划在未来数周正式发布。

一、支持推理与工具调用无缝切换,可自主修正错误

不同于现有推理模型,Anthropic新模型首次实现了“推理模式”与“工具调用”的无缝转换。当Anthropic新模型使用外部工具受阻时,该模型可立即切换至深度推理状态,分析问题根源并自我修正。

虽然OpenAI等竞争对手宣称其o3、o4-mini模型已具备和Anthropic类似的推理能力,但据外媒The Information爆料,Anthropic的深度思考模型在复杂任务处理效率上显现优势,在相同市场分析任务中,Anthropic新模型决策路径缩短30%,数据调用精准度提升22%。

以曼哈顿咖啡店选址为例,Anthropic新模型的系统会先检索全美趋势数据,通过本地人口统计数据分析,自动修正初始方案的偏差。

在软件开发场景,Anthropic新模型具备代码自动测试功能。Anthropic新模型在生成代码后能立即启动自检程序,发现错误即暂停执行,通过多维度推理定位问题并修正。

外媒The Information援引Anthropic新模型的测试人员证实,Anthropic新模型的系统处理“提升应用运行速度”等抽象指令时,可在无需人工干预情况下,自主完成方案设计、测试验证全流程。

二、前代产品评价两极分化,企业仍加大核心计算技术投入

尽管用户对前代Claude 3.7 Sonnet的评价呈现两极分化,但Anthropic仍持续加大“测试时计算量”投入。

一部分用户对其称赞有加,在复杂的会计分析和数据可视化任务中,Claude 3.7 Sonnet展现出极高效率,短短十秒即可完成任务。

但另一部分用户则提出诸多质疑,如模型知识储备存在局限,在回答重要问题时容易出错,甚至在面对美国总统等常识性问题时也会误答;使用成本高昂,每百万输入token费用为3美元(折合人民币约为25.59元),每百万输出token费用达15美元(折合人民币约为107.95元),特别是使用思考功能时开支显著上升,对个人用户和小团队而言负担较重;还有用户反馈模型存在忽视指令、过度工程化倾向,以及在实际使用中上下文窗口利用效率存疑等问题。

这项支撑推理模型的核心技术,通过动态分配计算资源优化思考深度。据The Information报道,某知情人士指出,这种技术路线选择凸显企业对该架构的长期信心。

结语:Anthropic新框架预研,推动AI自主决策迈向实用

Anthropic的“推理-工具调用”框架虽仍处于预研阶段,将AI自主决策能力推向实用化阶段。该模型在代码迭代、商业逻辑推演等场景中已显现效能提升潜力。面对OpenAI等机构的技术路线竞争,以及模型指令对齐的行业性难题,相关系统的工程化路径尚未完全定型。

随着各大机构加速逼近自主决策的技术临界点,如何在增强自主性与确保可控性之间取得平衡,或将成为下一代AI系统的关键挑战。

(来源:新浪科技)



用户登录