Anthropic官宣Claude 3.7 Sonnet, 一觉醒来,程序员要集体失业了
在 SWE bench(human verified)里面,过去SOTA方法对问题的解决都是50%上下,Claude 3.7直接刷到了70.3%,估计今天一大早自媒体们起床以后要开始刷“震惊!程序员这次真的集体失业了!”。所以,我提前用这个标题了。[破涕为笑][破涕为笑][破涕为笑]
3.7 Sonnet——迄今为止最智能的模型,也是市面上首个混合推理模型!
正如人类大脑能同时处理快速反应与深度反思,推理能力应是前沿模型的集成能力,而非独立模块。
核心特性⬇️
1️⃣双模式运行
标准模式:相比前代进行了升级,适合快速交互🏃♂️
扩展思考模式:通过自我反思优化数学、物理、指令遵循、编码等任务表现🧠
(两种模式下提示词用法一致)
2️⃣API 灵活控制
用户可设定思考预算(最多 128K 输出token),平衡速度、成本与回答质量💰
3️⃣聚焦真实场景
减少对竞赛的优化,转而提升实际需求任务的表现。
性能突破⬇️
3.7 Sonnet在指令跟踪、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面提供了显著的提升。它甚至超过了Claude之前的所有模型。
在SWE-bench上达到了前所未有的 70.3 (思考模式)和 62.3(标准模式),遥遥领先。
在TAU-bench上也都取得了目前最高分数。
随同发布的还有Claude Code(目前为预览版),开发者可直接通过终端将任务委托给 Claude去执行,类似Cursor 。
在早期测试中,Claude Code在一次任务中完成了通常需要45分钟的手动工作,从而减少了开发时间和开销。
最后,Anthropic的GitHub集成现在在所有Claude计划中可用,你可以与Claude合作开发你的代码库
目前3.7 Sonnet现在可用于所有订阅,以及官方API、Amazon Bedrock和Google Cloud的Vertex AI 。
素材来源官方媒体/网络新闻
(来源:新浪科技)