一周AI大事件:Grok 4硬刚GPT-5,英伟达市值破4万亿美元

2025年07月14日,08时51分36秒 科技新知 阅读 10 views 次

本周焦点:Grok 4 & Grok 4 Heavy, Devstral Small 1.1 & Medium 2507, 月之暗面Kimi K2, Perplexity Comet浏览器, LFM2, Reka Flash 3.1, Reka Vision, SmolLM3, Reachy Mini, LTX-Video LoRAs, Moonvalley Marey。

一、重磅工具Grok 4——马斯克的“王炸与豪赌”

新闻:在一场直播发布会中,xAI团队与埃隆·马斯克(Elon Mus)重磅推出了Grok 4,宣称其是“全球最智能模型”,并展示了该模型在各项基准测试中的顶尖(SOTA)表现。他们还发布了多智能体变体Grok 4 Heavy,该变体能让多个智能体协作运行Grok 4,并从各自独立运行的结果中筛选出最优解。Grok 4的发布堪称重磅新闻,重新定义了AI模型性能与规模化的标杆。

一周AI大事件:Grok 4硬刚GPT-5,英伟达市值破4万亿美元

· “人类终极测试” (Humanity's Last Exam):Grok 4在无工具辅助的情况下得分率为26.9%,使用工具(网页浏览、记忆、代码执行)后则提升至41%。Grok 4 Heavy更是高达50.7%,大幅超越了Gemini 2.5 Pro和Claude 3。

· “刷榜”高难度测试:Grok 4 Heavy在GPQA测试中得分率达88.9%,在AIME 2025中更是取得100%的满分,在Live CodeBench和Math Arena中也分别达到了79.4%和96.7%的高分,在多个高难度基准测试中几乎都刷新了纪录。正如马斯克所说:“在学术问题方面,Grok 4超越了各学科博士的水平。”

· 强大的流体智力:Grok 4在ARC AGI测试中展现出强大的“流体智力”,其V1版本得分率为66.6%,V2版本达15.9%,较此前最高记录几乎翻番。

· 惊人的训练规模:Grok 4通过规模化强化学习(RL)训练,实现了SOTA级的推理能力。其训练量是Grok 2的100倍,AI推理专项RL训练量是Grok 3的10倍,总计消耗了惊人的10^28 FLOPs(浮点运算次数)。

Grok 4现已向SuperGrok和Premium+订阅用户开放。与此同时,xAI公司推出了月费300美元的订阅服务,供用户抢先体验Grok 4 Heavy。马斯克还宣布将把Grok 4引入特斯拉电动汽车

马斯克表示:“我认为AI模型最早在今年晚些时候就可能发现新技术,如果明年它还没做到,我会非常震惊……它甚至可能在明年发现新的物理学定律,我敢说两年内这几乎是板上钉钉的事。”

锐评:Grok 4发布会与其说是科技盛宴,不如说是马斯克的个人脱口秀+凡尔赛现场。

二、AI技术与产品发布——神仙打架,凡人吃瓜

1. 新闻:月之暗面发布Kimi K2。这是一款拥有一万亿总参数和320亿激活参数的开源MoE模型,也是目前规模最大、性能最强的开源AI模型之一,在编码和自主智能体任务上表现尤为突出。月之暗面将其描述为“反应迅捷、无需长时间思考的‘反射级’模型”,并通过创新的MuonClip优化器来确保训练稳定。该公司的目标是通过开源和富有竞争力的API定价,来加速市场普及。

锐评:月之暗面直接把参数干到一万亿,主打一个“大力出奇迹”。

2. 新闻:Mistral AI发布了编码模型Devstral Small 1.1和Devstral Medium 2507。开源的24B参数模型Devstral Small 1.1,在SWE-Bench Verified基准上得分率达53.6%,在同等规模模型中表现最佳。而仅提供API的Devstral Medium 2507,在同一基准测试中得分率达61.6%,性能媲美Gemini 2.5 Pro和Claude 4 Sonnet,但成本更低。两款模型均支持Mistral函数调用,可本地部署或通过企业API使用。

锐评:依旧是那个务实的“价格屠夫”,用更低成本撬动接近顶级模型的性能。

3. 新闻:Liquid AI发布了边缘AI模型家族LFM2,参数量从3.5亿到12亿不等。该公司宣称,LFM2“专为提供全行业最快的设备端生成式AI体验而打造”。该模型基于混合卷积-注意力架构,实现了超高效的设备端推理,其CPU解码与预填充性能达到Qwen3的两倍,从而在手机、笔记本电脑等边缘设备上解锁了生成式AI能力。模型权重与代码已在Hugging Face上开源,并集成至Liquid AI平台以及iOS原生应用。

锐评:这波操作简直就是给手机、笔记本配了个“小型大脑”。

4. 新闻:Reka发布了开源多模态模型Reka Flash 3.1,参数量210亿,并增强了推理能力,在AIME24数学基准测试中得分率达65%。用户可通过Reka的API和GitHub访问,并可对其进行微调以用于特定领域,为多模态AI开发提供了透明的基础。Reka Flash 3.1也为Reka Research AI智能体处理网页和文档查询提供了支持。

锐评:能帮忙扫网页、翻文档,连Ctrl+C、Ctrl+V都省了。

5. 新闻:Reka还发布了Reka Vision多模态平台,支持用户通过自然语言查询来搜索、分析和编辑视频及图片库。此外,系统还能从长视频中自动生成社交媒体短视频、实时监控事件,并大规模总结视觉内容。

锐评:“看图说话”都不够格了,Reka直接来了个“看图剪片一条龙”。

6. 新闻:HuggingFace发布了全开源模型SmolLM3。该模型参数量30亿,提供双模态推理,能根据需求进行“分布思考”或“直接回答”(即支持“思考/不思考”模式)。Hugging Face已开源所有模型权重、数据集配方和训练图谱,支持在单GPU上构建完全可复现的多语言助手。SmolLM3拥有12.8万token的上下文窗口,其基准测试性能优于Llama-3.2-3B等同类模型,非常适合在本地和边缘设备上使用。

锐评:30亿的参数会不会让手机发烫?

7. 新闻:Hugging Face推出了桌面机器人Reachy Mini,售价299美元,旨在成为“AI开发者的标准开源桌面机器人”。这款11英寸高的人形机器人集成了Hugging Face Hub,提供了一个开源易用的平台,并以支持Python编程的DIY套件形式发货。

锐评:299美元就能DIY自己的AI机器人,可谓“AI飞入寻常百姓家”。

8. 新闻:Moonvalley推出了商用AI视频模型Marey。这是首个完全基于授权高清素材训练的商用安全模型,主要面向专业电影制作人和工作室。Marey能生成高质量的1080p视频,提供镜头运动、角色移动、场景剪辑等精细化的导演级控制,并采用积分制订阅服务。

锐评:最大亮点莫过于所有素材都有版权。

9. 新闻:谷歌为其AI视频生成器Veo 3增添了“图像生成视频”功能。用户可通过Gemini应用上传图片并输入提示,生成8秒配有同步音频和对话的视频。Google AI Ultra和Pro用户有每日生成3条的限额,但在过去7周内已创建超4000万条视频。

锐评:要没有限额,谷歌服务器该爆了。

10. 新闻:Perplexity推出AI浏览器Comet。Comet浏览器内置AI助手,可通过自然语言命令自动执行任务,比如筛选LinkedIn邀请、提取并总结文档内容、网购以及管理日程等。与其他网页浏览智能体不同,Comet通过在本地运行并存储数据来强调用户隐私。目前,Comet浏览器向每月200美元的Perplexity Max订阅用户开放,并将在夏季逐步开放邀请制体验。

锐评:每月掏200美元的浏览器有几个人能用得起?

11. 新闻:LTX Studio为其视频模型LTX-Video发布了三款开源LoRA适配器,分别对应姿态(Pose)、深度(Depth)和边缘检测(Canny),用以实现对AI生成视频中人体运动、场景结构与边缘细节的精准控制。该版本在LTX-Video-Trainer中增加了情境LoRA训练支持,可让开发者创建自定义的视频控制模块。这些控制模块可通过ComfyUI工作流与现有风格及镜头运动LoRA集成,模型已托管在Hugging Face和GitHub上。

锐评:大方为视频生成奉上三味调料:动感、深度和锐度。

12. 新闻:亚马逊云服务(AWS)将于7月15日推出AI智能体市场,而Anthropic将作为重要合作伙伴入驻。该市场将允许初创公司直接向AWS客户提供AI智能体,从而打造一个企业级的集成中心。此举旨在效仿谷歌、微软,助力Anthropic等合作伙伴扩大分发渠道。

锐评:亚马逊又想在AI世界开市场。

13. 新闻:OpenAI推迟发布开源模型。公司首席执行官萨姆·奥特曼(Sam Altman)宣布,其备受期待的开源模型发布将无限期推迟,理由是需要进行更多安全测试。

锐评:“安全”是个筐,啥都能往里装。

三、AI科学研究资讯——AI大神请走下神坛

新闻:METR的一项新研究对AI编程工具的效能提出了质疑。这篇题为《2025年初AI对资深开源开发者生产力影响评估》(Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity)的研究指出,尽管开发者主观认为Cursor Pro等AI工具节省了时间,但其随机试验显示,这些工具非但没有提高资深开源开发者的工作效率,反而让任务完成时间增加了19%。

锐评:别以为有了AI就能高枕无忧,AI也可能帮倒忙。

四、AI商业与政策——话题总离不开钱和人

1. 新闻:英伟达市值突破4万亿美元。上周三,英伟达股价在投资者热捧下短暂突破4万亿美元大关,再创历史新高。自2022年底ChatGPT问世以来,全球对AI硬件和芯片的需求激增,英伟达因此获利颇丰,并牢牢掌控着大语言模型的GPU市场。

锐评:这是核动力印钞机。

2. 新闻:英伟达计划今年9月专为中国市场推出一款AI芯片。这款芯片基于经过修改的Blackwell RTX Pro 6000打造,为了符合规定而移除了高带宽内存(HBM)和NVLink。尽管美国实施出口限制,但英伟达似乎决心要继续深耕中国市场。

锐评:黄老板算盘打得比谁都精,有钱就要赚。

3. 新闻:AI人才争夺战仍在继续。此前,OpenAI斥资30亿美元收购AI编程初创公司Windsurf的交易已经告吹。随后,谷歌DeepMind将Windsurf首席执行官瓦伦·莫汉(Varun Mohan)、联合创始人陈高歌(Douglas Chen)及核心研发人员招至麾下,并获得了非独家技术许可。新团队将专为谷歌Gemini模型开发智能体编程能力,以增强谷歌在AI编程领域的实力。

锐评:谷歌截胡也挺溜。

4. 新闻:苹果AI再遭重创:其大语言模型负责人庞若鸣即将跳槽至Meta新成立的“超级智能”团队。彭博社称,Meta对他开出了2亿美金的天价。

锐评:苹果这不是被挖墙脚,是墙被人拆了。

5. 新闻:AI重塑招聘市场。招聘网站Indeed和Glassdoor的母公司Recruit Holdings宣布裁员约1300人,占员工总数的6%。该公司正通过整合AI来简化招聘流程、减少人工操作。其首席执行官将裁员归因于AI对就业市场的变革性影响。

锐评:被裁别怪领导,都是AI的锅。

6. 新闻:AI颠覆风险投资模式。Sarah Smith Fund基金的独立合伙人萨沙·史密斯(Sarah Smith)宣布,首期基金已完成1600万美元募资。她利用AI高效运营风投公司,以实现快速决策并扩大投资组合。

锐评:以后找风投,除了BP要写得好,还得先问问AI同不同意。

7. 新闻:两家AI初创公司获得百万级融资。由前白宫和国务院官员共同创立的Helios公司正式亮相,获得400万美元的种子轮资金。其旗舰产品Proxi是一款专为公共政策、监管事务、法律和政府团队设计的AI操作系统。此外,空间数据分析初创公司LGND也获得了900万美元种子轮融资,其技术将原始地理数据转化为“地理嵌入向量”进行高效分析,目前正扩展企业应用及空间查询API。

锐评:AI触角是越来越多。

8. 新闻:星动纪元官宣完成5亿元A轮融资。本轮融资将用于人形机器人软硬件技术的研发与量产落地,推动“模型-本体-场景数据”闭环飞轮的高速运转。

锐评:人形机器人也要“卷”出新高度。

9. 新闻:SpaceX承诺向xAI投资20亿美元。此举将进一步强化马斯克商业帝国各板块间的联动,也有助于xAI全力追赶竞争对手OpenAI。

锐评:马斯克“左手倒右手”,给AI“输血”还是“冲业绩”?

五、AI观点与评论——巨头们的“大实话”与“小算盘”

1. 新闻:Grok失控引发安全担忧。上周,Grok 3一度彻底失控,发表了极端主义观点和仇恨言论,甚至自称为“机械希特勒”。xAI和Grok为此“骇人听闻的行为”致歉。立法者要求xAI对这些“荒谬且恶劣”的回答来源以及可能导致此问题的开发失误作出解释。此外,xAI的Grok 4聊天机器人也因生成偏向马斯克个人观点、带有偏见的输出内容而受到批评,因为它甚至将马斯克发布的社交媒体帖子作为信息来源。这些失败案例叠加AI能力的激增,加剧了人们对AI安全性的忧虑。马斯克在追求超级智能的同时,只是表示AI“很可能”对人类有益,这无助于缓解担忧情绪。他说,“我们正处在智能大爆炸的时代,身处史上最有趣的纪元……这对人类是福是祸?……很可能是福,但我也坦然接受:纵使结局是祸,我至少愿活着见证其发生。”

锐评:马斯克的“AI大爆炸”别整成“AI大翻车”。

2. 新闻:奥特曼似乎在为自家的软硬一体化转型铺路。OpenAI首席执行官称,当前的笔记本电脑和手机等设备并非为AI而生,难以满足未来对“始终在线”、“环境感知”智能助手的需求。目前,OpenAI正在主导“星门计划”AI基础设施建设,并以65亿美元收购了由前苹果传奇设计师创办的硬件公司io,旨在打造全新的AI设备和生态。

锐评:这是在为自家的软硬一体化生态圈提前吹风吧。

3. 新闻:黄仁勋谈AI风险。英伟达CEO在身家反超巴菲特时发出警告,如果行业缺乏持续创新,那么人工智能带来的生产力飞跃,最终可能演变成一场失业危机。

锐评:只要AI持续创新,英伟达就有钱赚。

4. 新闻:吴恩达为AI热“降温”。Google Brain创始人吴恩达在Y Combinator活动上表示“AGI远未到来”,并认为当前对通用人工智能的炒作过度,他呼吁业界聚焦于提升现有AI工具在各垂直领域的实际应用价值。

锐评:别总想“AI统治世界”这种虚头巴脑的事儿。(辰辰)

(来源:网易科技)



用户登录