NEW 超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分



-
官方网站:https://snakebench.com -
项目地址:https://github.com/gkamradt/SnakeBench

-
实时决策 -
多重目标 -
空间推理 -
动态环境








-
推理模型占据主导:o3-mini 和 DeepSeek 赢得了 78% 的比赛。 -
LLM 经常误解以文本格式提供的棋盘布局。这会导致模型错误地定位蛇头的位置,或者导致蛇撞到自己的尾巴。 -
较低档的模型(包括 GPT-3.5 Turbo 和 Haiku)表现不佳,而只有 GPT-4、Gemini 2.0 和 o3-mini 表现出足够的策略游戏推理能力。这说明基本的空间推理仍然是 LLM 面临的巨大挑战。大多数模型都无法跟踪自己的位置,并且会犯明显的错误。 -
上下文很关键。为了让 LLM 做出正确选择,需要让其加载大量信息,包括棋盘位置、苹果位置、其它蛇的位置等。

