DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页 2025年02月08日,14时56分03秒 OpenAI 阅读 46 views 次 随着 AI 大模型在一个又一个的任务上达到乃至超越人类水平,人类文明似乎已经 该团队表示,虽然目前的 LLM 在 HLE 上的准确度非常低,但最近的历史表明,这个基准很快就会饱和 —— 前沿模型的性能可在短时间内从接近零到接近完美。 他们预计,到 2025 年底,模型在 HLE 上的准确度就可能超过 50%。 如果模型能在 HLE 上取得高准确度表现,则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现,但仅靠这个基准,并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。HLE 测试的是结构化的学术问题,而不是开放式研究或创造性解决问题的能力,因此这是一个重点关注技术知识和推理的测量指标。 该团队写到:「HLE 可能是我们需要对模型进行的最后的学术考试,但它远非 AI 的最后一个基准。」 关联资讯: