2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

2025年04月02日,21时12分06秒 OpenAI 阅读 24 views 次

当 AI 翻开奥数题,CPU 也烧了!

还记得那些被奥数题折磨得彻夜难眠的日子吗?

当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候,你可能会想:「要是有个超级大脑能帮我解决这些问题该多好啊!」

2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

好消息:大模型解数学题的能力很强!坏消息:它们好像也被奥数折磨得不轻。

很多针对大型语言模型(LLMs)的数学基准测试已经表明,最先进的推理模型在美国数学邀请赛(AIME)等数学竞赛中表现出色,O3-MINI 模型甚至达到了与顶尖人类参赛者相当的水平。然而,这些测试仅仅评估了最终答案,而忽略了推理和证明过程。

为弥补这一不足,专注于评估大模型数学能力的 MathArena 平台的研究人员,首次全面评估了模型解决复杂数学问题的完整推理和证明构建能力。

美国数学奥林匹克竞赛(USAMO)是全球最具挑战性的中学生数学竞赛之一。首先,该赛事强调严格证明与逻辑严谨性,题目均为证明题,要求选手通过严密的逻辑推导和完整的数学语言呈现解答,而非仅给出数值答案(如 AIME)。其次,题目难度极高,涉及数论、组合数学、代数、几何等核心领域,常需运用高级技巧(如生成函数、不等式放缩、图论构造等)。而且题目设计具有「门槛效应」:部分问题看似简单,但需洞察隐藏结构或非标准解法(如构造性证明、反证法)。

他们在 2025 年美国数学奥林匹克竞赛(USAMO)试题发布后立即测试了多个热门模型,结果令人失望:所有模型都表现欠佳,平均得分不到 5%。

2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

通过深入分析模型的推理过程,研究人员识别出了多种常见失败模式,并发现模型训练中的某些优化策略反而产生了负面影响。

2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%
  • 论文标题:PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD

  • 论文链接:https://arxiv.org/pdf/2503.21934v1

  • 项目主页:https://matharena.ai

  • 项目代码:https://github.com/eth-sri/matharena

结果表明,当前的 LLM 在严格的数学推理方面,尤其是在形式化证明生成方面,仍然非常吃力。在未来的研究中,有必要改进训练方法,如纳入重证明的数据集、整合形式验证工具或开发优先考虑逻辑一致性而非答案优化的架构,弥合数值正确性与逐步证明能力之间的差距。

方法

评估基准与问题准备

研究团队选择了 USAMO 2025 作为基准测试,这是一个权威数学竞赛,包含六道需要证明的题目,为期两天。这个竞赛非常适合作为评估基准,因为题目具有挑战性,需要详细证明才能得满分,且数据未被污染.

图 1 展示了两个竞赛题目。在评估过程中,研究人员要求各模型提供全面详细的证明,并使用 LaTeX 格式。

2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

为降低结果的变异性,每个模型对每道题目进行了四次独立解答。所有解答均经过匿名化处理并转换为 PDF 格式进行评分,评分过程中不考虑思考过程部分。

评审团队

评分团队由四位资深数学专家组成,他们都曾是国家 IMO 队成员或

答案框选

当前强化学习优化技术依赖从明确的最终答案中提取奖励,为此模型常被要求将最终答案放在 boxed {} 环境中。然而,这在 USAMO 问题解答中产生了意外副作用:即使大多数评估问题不需要框选答案,模型仍习惯性地这样做。

一个典型例子是问题 5 中,QWQ 模型错误地限制自己只寻找整数解,尽管题目没有这样的要求。它坚持最终答案是 2,虽然已经正确推导出所有偶数都满足条件。这表明像 GRPO 这样的对齐技术可能无意中让模型认为每个数学问题都需要一个明确的框选答案,从而损害了其整体推理能力。

模式泛化

模型常表现出将小数值案例中观察到的模式过度泛化到更大未测试案例的倾向。虽然这种启发式方法对仅需数值答案的问题可能有效,但对于需要严格证明的问题,这种方法本质上存在缺陷。模型经常在缺乏正式证明的情况下,错误地断言小案例中观察到的模式具有普遍适用性。

解答结构与清晰度

不同模型提供的解答在清晰度和结构连贯性上存在显著差异。O3-MINI 和 O1-PRO 等模型通常以清晰、逻辑化且易于理解的方式呈现解答。相反,FLASH-THINKING 和 QWQ 等模型经常产生混乱且难以理解的回答,有时在单个解答中混合多个不相关的概念。

OpenAI 训练的模型在清晰度上的明显优势表明,专注于解答连贯性的额外训练显著提高了其可读性,这一特性在其他模型中明显受到较少重视。

所以,当下次有人警告你「AI 即将统治世界」时,不妨淡定地递给他一张奥数试卷:「先让它们过了这一关再说吧。」

(来源:机器之心)

标签:


用户登录