冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂

2025年02月06日,10时03分58秒 OpenAI 阅读 101 views 次
在 DeepSeek 的强烈攻势下,这次轮到谷歌坐不住了。
本周三,该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。
冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂
下图为三个模型在通用、代码、推理、事实性、多语言、数学、长上下文、图像、音频和视频等多领域任务中的性能指标。
冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂
在大模型排行榜上,Gemini 2.0-Pro 在 Chatbot Arena 所有类别中排名第一。Pro 版在代码等复杂任务上表现突出,Gemini Advanced 用户目前已经可以在 App 上进行试用了。
冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂
与此同时,排名并列第三的 Gemini-2.0-Flash 已通过 Google AI Studio 和 Vertex AI 向开发人员广泛开放(价格是 0.1 美元 / M token),Flash-lite 也以更低的成本。有评论认为,在这代模型推出后包括 OCR 等一些领域的游戏规则已被改变。
冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂
Gemin 2.0 在处理真实文档时已经可以做到极高的准确率和低成本,实测很少会出现具体数值被误读的情况。除了表格解析之外,Gemini 在 PDF 到 Markdown 转换的所有其他方面可以始终提供近乎完美的准确性。所有特性结合在一起,你将获得一个极其简单、可扩展且便宜的索引流程。

冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂

(来源:机器之心)

我们一直在等的大模型技术革命,已经在很多领域出现了。
参考链接:
https://developers.googleblog.com/en/gemini-2-family-expands/
https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/
https://techcrunch.com/2025/02/05/google-launches-new-ai-models-and-brings-thinking-to-gemini/
https://news.ycombinator.com/item?id=42952605
标签:


用户登录