DeepSeek-R1、o1都低于10%，人类给AI的「最后考试」来了，贡献者名单长达两页

2025年02月08日,14时56分03秒 OpenAI 阅读 46 views 次

随着 AI 大模型在一个又一个的任务上达到乃至超越人类水平，人类文明似乎已经

该团队表示，虽然目前的 LLM 在 HLE 上的准确度非常低，但最近的历史表明，这个基准很快就会饱和 —— 前沿模型的性能可在短时间内从接近零到接近完美。

他们预计，到 2025 年底，模型在 HLE 上的准确度就可能超过 50%。

如果模型能在 HLE 上取得高准确度表现，则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现，但仅靠这个基准，并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。HLE 测试的是结构化的学术问题，而不是开放式研究或创造性解决问题的能力，因此这是一个重点关注技术知识和推理的测量指标。

该团队写到：「HLE 可能是我们需要对模型进行的最后的学术考试，但它远非 AI 的最后一个基准。」

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

关联资讯:

用户登录