曝Anthropic几周内将推两大深度推理模型，可无缝切换思考模式、调用外部工具

2025年05月15日,21时02分28秒科技新知阅读 34 views 次

编译 | 金碧辉

编辑 | 程茜

智东西5月15日消息，据The Information昨日傍晚报道，继OpenAI、谷歌之后，AI独角兽Anthropic即将推出深度推理模型，推出Claude Sonnet和Claude Opus两大模型升级版本，全球AI竞赛进入“深度思考”新阶段。

据知情人士透露，Anthropic将通过“推理-工具调用”动态切换机制，该机制可自主发现问题并修正错误，将AI系统的自主决策能力推向新高度。该技术已在代码生成、市场分析等复杂场景验证效能，Anthropic计划在未来数周正式发布。

一、支持推理与工具调用无缝切换，可自主修正错误

不同于现有推理模型，Anthropic新模型首次实现了“推理模式”与“工具调用”的无缝转换。当Anthropic新模型使用外部工具受阻时，该模型可立即切换至深度推理状态，分析问题根源并自我修正。

虽然OpenAI等竞争对手宣称其o3、o4-mini模型已具备和Anthropic类似的推理能力，但据外媒The Information爆料，Anthropic的深度思考模型在复杂任务处理效率上显现优势，在相同市场分析任务中，Anthropic新模型决策路径缩短30%，数据调用精准度提升22%。

以曼哈顿咖啡店选址为例，Anthropic新模型的系统会先检索全美趋势数据，通过本地人口统计数据分析，自动修正初始方案的偏差。

在软件开发场景，Anthropic新模型具备代码自动测试功能。Anthropic新模型在生成代码后能立即启动自检程序，发现错误即暂停执行，通过多维度推理定位问题并修正。

外媒The Information援引Anthropic新模型的测试人员证实，Anthropic新模型的系统处理“提升应用运行速度”等抽象指令时，可在无需人工干预情况下，自主完成方案设计、测试验证全流程。

二、前代产品评价两极分化，企业仍加大核心计算技术投入

尽管用户对前代Claude 3.7 Sonnet的评价呈现两极分化，但Anthropic仍持续加大“测试时计算量”投入。

一部分用户对其称赞有加，在复杂的会计分析和数据可视化任务中，Claude 3.7 Sonnet展现出极高效率，短短十秒即可完成任务。

但另一部分用户则提出诸多质疑，如模型知识储备存在局限，在回答重要问题时容易出错，甚至在面对美国总统等常识性问题时也会误答；使用成本高昂，每百万输入token费用为3美元（折合人民币约为25.59元），每百万输出token费用达15美元（折合人民币约为107.95元），特别是使用思考功能时开支显著上升，对个人用户和小团队而言负担较重；还有用户反馈模型存在忽视指令、过度工程化倾向，以及在实际使用中上下文窗口利用效率存疑等问题。

这项支撑推理模型的核心技术，通过动态分配计算资源优化思考深度。据The Information报道，某知情人士指出，这种技术路线选择凸显企业对该架构的长期信心。

结语：Anthropic新框架预研，推动AI自主决策迈向实用

Anthropic的“推理-工具调用”框架虽仍处于预研阶段，将AI自主决策能力推向实用化阶段。该模型在代码迭代、商业逻辑推演等场景中已显现效能提升潜力。面对OpenAI等机构的技术路线竞争，以及模型指令对齐的行业性难题，相关系统的工程化路径尚未完全定型。

随着各大机构加速逼近自主决策的技术临界点，如何在增强自主性与确保可控性之间取得平衡，或将成为下一代AI系统的关键挑战。

(来源：新浪科技)

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

关联资讯:

用户登录