DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

2025年02月08日,14时56分03秒 OpenAI 阅读 46 views 次
随着 AI 大模型在一个又一个的任务上达到乃至超越人类水平,人类文明似乎已经
该团队表示,虽然目前的 LLM 在 HLE 上的准确度非常低,但最近的历史表明,这个基准很快就会饱和 —— 前沿模型的性能可在短时间内从接近零到接近完美。
他们预计,到 2025 年底,模型在 HLE 上的准确度就可能超过 50%
如果模型能在 HLE 上取得高准确度表现,则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现,但仅靠这个基准,并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。HLE 测试的是结构化的学术问题,而不是开放式研究或创造性解决问题的能力,因此这是一个重点关注技术知识和推理的测量指标。
该团队写到:「HLE 可能是我们需要对模型进行的最后的学术考试,但它远非 AI 的最后一个基准。
标签:


用户登录