一周AI大事件：Grok 4硬刚GPT-5，英伟达市值破4万亿美元

2025年07月14日,08时51分36秒科技新知阅读 90 views 次

本周焦点：Grok 4 & Grok 4 Heavy, Devstral Small 1.1 & Medium 2507, 月之暗面Kimi K2, Perplexity Comet浏览器, LFM2, Reka Flash 3.1, Reka Vision, SmolLM3, Reachy Mini, LTX-Video LoRAs, Moonvalley Marey。

一、重磅工具Grok 4——马斯克的“王炸与豪赌”

新闻：在一场直播发布会中，xAI团队与埃隆·马斯克（Elon Mus）重磅推出了Grok 4，宣称其是“全球最智能模型”，并展示了该模型在各项基准测试中的顶尖（SOTA）表现。他们还发布了多智能体变体Grok 4 Heavy，该变体能让多个智能体协作运行Grok 4，并从各自独立运行的结果中筛选出最优解。Grok 4的发布堪称重磅新闻，重新定义了AI模型性能与规模化的标杆。

· “人类终极测试” (Humanity's Last Exam)：Grok 4在无工具辅助的情况下得分率为26.9%，使用工具（网页浏览、记忆、代码执行）后则提升至41%。Grok 4 Heavy更是高达50.7%，大幅超越了Gemini 2.5 Pro和Claude 3。

· “刷榜”高难度测试：Grok 4 Heavy在GPQA测试中得分率达88.9%，在AIME 2025中更是取得100%的满分，在Live CodeBench和Math Arena中也分别达到了79.4%和96.7%的高分，在多个高难度基准测试中几乎都刷新了纪录。正如马斯克所说：“在学术问题方面，Grok 4超越了各学科博士的水平。”

· 强大的流体智力：Grok 4在ARC AGI测试中展现出强大的“流体智力”，其V1版本得分率为66.6%，V2版本达15.9%，较此前最高记录几乎翻番。

· 惊人的训练规模：Grok 4通过规模化强化学习（RL）训练，实现了SOTA级的推理能力。其训练量是Grok 2的100倍，AI推理专项RL训练量是Grok 3的10倍，总计消耗了惊人的10^28 FLOPs（浮点运算次数）。

Grok 4现已向SuperGrok和Premium+订阅用户开放。与此同时，xAI公司推出了月费300美元的订阅服务，供用户抢先体验Grok 4 Heavy。马斯克还宣布将把Grok 4引入特斯拉电动汽车。

马斯克表示：“我认为AI模型最早在今年晚些时候就可能发现新技术，如果明年它还没做到，我会非常震惊……它甚至可能在明年发现新的物理学定律，我敢说两年内这几乎是板上钉钉的事。”

锐评：Grok 4发布会与其说是科技盛宴，不如说是马斯克的个人脱口秀+凡尔赛现场。

AI的尽头是中国大脑！ xAI团队自拍庆祝Grok 4发布（来源：科技大佬见闻）

二、AI技术与产品发布——神仙打架，凡人吃瓜

1. 新闻：月之暗面发布Kimi K2。这是一款拥有一万亿总参数和320亿激活参数的开源MoE模型，也是目前规模最大、性能最强的开源AI模型之一，在编码和自主智能体任务上表现尤为突出。月之暗面将其描述为“反应迅捷、无需长时间思考的‘反射级’模型”，并通过创新的MuonClip优化器来确保训练稳定。该公司的目标是通过开源和富有竞争力的API定价，来加速市场普及。

锐评：月之暗面直接把参数干到一万亿，主打一个“大力出奇迹”。

2. 新闻：Mistral AI发布了编码模型Devstral Small 1.1和Devstral Medium 2507。开源的24B参数模型Devstral Small 1.1，在SWE-Bench Verified基准上得分率达53.6%，在同等规模模型中表现最佳。而仅提供API的Devstral Medium 2507，在同一基准测试中得分率达61.6%，性能媲美Gemini 2.5 Pro和Claude 4 Sonnet，但成本更低。两款模型均支持Mistral函数调用，可本地部署或通过企业API使用。

锐评：依旧是那个务实的“价格屠夫”，用更低成本撬动接近顶级模型的性能。

3. 新闻：Liquid AI发布了边缘AI模型家族LFM2，参数量从3.5亿到12亿不等。该公司宣称，LFM2“专为提供全行业最快的设备端生成式AI体验而打造”。该模型基于混合卷积-注意力架构，实现了超高效的设备端推理，其CPU解码与预填充性能达到Qwen3的两倍，从而在手机、笔记本电脑等边缘设备上解锁了生成式AI能力。模型权重与代码已在Hugging Face上开源，并集成至Liquid AI平台以及iOS原生应用。

锐评：这波操作简直就是给手机、笔记本配了个“小型大脑”。

4. 新闻：Reka发布了开源多模态模型Reka Flash 3.1，参数量210亿，并增强了推理能力，在AIME24数学基准测试中得分率达65%。用户可通过Reka的API和GitHub访问，并可对其进行微调以用于特定领域，为多模态AI开发提供了透明的基础。Reka Flash 3.1也为Reka Research AI智能体处理网页和文档查询提供了支持。

锐评：能帮忙扫网页、翻文档，连Ctrl+C、Ctrl+V都省了。

5. 新闻：Reka还发布了Reka Vision多模态平台，支持用户通过自然语言查询来搜索、分析和编辑视频及图片库。此外，系统还能从长视频中自动生成社交媒体短视频、实时监控事件，并大规模总结视觉内容。

锐评：“看图说话”都不够格了，Reka直接来了个“看图剪片一条龙”。

6. 新闻：HuggingFace发布了全开源模型SmolLM3。该模型参数量30亿，提供双模态推理，能根据需求进行“分布思考”或“直接回答”（即支持“思考/不思考”模式）。Hugging Face已开源所有模型权重、数据集配方和训练图谱，支持在单GPU上构建完全可复现的多语言助手。SmolLM3拥有12.8万token的上下文窗口，其基准测试性能优于Llama-3.2-3B等同类模型，非常适合在本地和边缘设备上使用。

锐评：30亿的参数会不会让手机发烫？

7. 新闻：Hugging Face推出了桌面机器人Reachy Mini，售价299美元，旨在成为“AI开发者的标准开源桌面机器人”。这款11英寸高的人形机器人集成了Hugging Face Hub，提供了一个开源易用的平台，并以支持Python编程的DIY套件形式发货。

锐评：299美元就能DIY自己的AI机器人，可谓“AI飞入寻常百姓家”。

8. 新闻：Moonvalley推出了商用AI视频模型Marey。这是首个完全基于授权高清素材训练的商用安全模型，主要面向专业电影制作人和工作室。Marey能生成高质量的1080p视频，提供镜头运动、角色移动、场景剪辑等精细化的导演级控制，并采用积分制订阅服务。

锐评：最大亮点莫过于所有素材都有版权。

9. 新闻：谷歌为其AI视频生成器Veo 3增添了“图像生成视频”功能。用户可通过Gemini应用上传图片并输入提示，生成8秒配有同步音频和对话的视频。Google AI Ultra和Pro用户有每日生成3条的限额，但在过去7周内已创建超4000万条视频。

锐评：要没有限额，谷歌服务器该爆了。

10. 新闻：Perplexity推出了AI浏览器Comet。Comet浏览器内置AI助手，可通过自然语言命令自动执行任务，比如筛选LinkedIn邀请、提取并总结文档内容、网购以及管理日程等。与其他网页浏览智能体不同，Comet通过在本地运行并存储数据来强调用户隐私。目前，Comet浏览器向每月200美元的Perplexity Max订阅用户开放，并将在夏季逐步开放邀请制体验。

锐评：每月掏200美元的浏览器有几个人能用得起？

11. 新闻：LTX Studio为其视频模型LTX-Video发布了三款开源LoRA适配器，分别对应姿态（Pose）、深度（Depth）和边缘检测（Canny），用以实现对AI生成视频中人体运动、场景结构与边缘细节的精准控制。该版本在LTX-Video-Trainer中增加了情境LoRA训练支持，可让开发者创建自定义的视频控制模块。这些控制模块可通过ComfyUI工作流与现有风格及镜头运动LoRA集成，模型已托管在Hugging Face和GitHub上。

锐评：大方为视频生成奉上三味调料：动感、深度和锐度。

12. 新闻：亚马逊云服务（AWS）将于7月15日推出AI智能体市场，而Anthropic将作为重要合作伙伴入驻。该市场将允许初创公司直接向AWS客户提供AI智能体，从而打造一个企业级的集成中心。此举旨在效仿谷歌、微软，助力Anthropic等合作伙伴扩大分发渠道。

锐评：亚马逊又想在AI世界开市场。

13. 新闻：OpenAI推迟发布开源模型。公司首席执行官萨姆·奥特曼（Sam Altman）宣布，其备受期待的开源模型发布将无限期推迟，理由是需要进行更多安全测试。

锐评：“安全”是个筐，啥都能往里装。

三、AI科学研究资讯——AI大神请走下神坛

新闻：METR的一项新研究对AI编程工具的效能提出了质疑。这篇题为《2025年初AI对资深开源开发者生产力影响评估》（Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity）的研究指出，尽管开发者主观认为Cursor Pro等AI工具节省了时间，但其随机试验显示，这些工具非但没有提高资深开源开发者的工作效率，反而让任务完成时间增加了19%。

锐评：别以为有了AI就能高枕无忧，AI也可能帮倒忙。

四、AI商业与政策——话题总离不开钱和人

1. 新闻：英伟达市值突破4万亿美元。上周三，英伟达股价在投资者热捧下短暂突破4万亿美元大关，再创历史新高。自2022年底ChatGPT问世以来，全球对AI硬件和芯片的需求激增，英伟达因此获利颇丰，并牢牢掌控着大语言模型的GPU市场。

英伟达市值突破4万亿美元！相当于日本去年GDP （来源：科技大佬见闻）

锐评：这是核动力印钞机。

2. 新闻：英伟达计划今年9月专为中国市场推出一款AI芯片。这款芯片基于经过修改的Blackwell RTX Pro 6000打造，为了符合规定而移除了高带宽内存（HBM）和NVLink。尽管美国实施出口限制，但英伟达似乎决心要继续深耕中国市场。

锐评：黄老板算盘打得比谁都精，有钱就要赚。

3. 新闻：AI人才争夺战仍在继续。此前，OpenAI斥资30亿美元收购AI编程初创公司Windsurf的交易已经告吹。随后，谷歌DeepMind将Windsurf首席执行官瓦伦·莫汉（Varun Mohan）、联合创始人陈高歌(Douglas Chen)及核心研发人员招至麾下，并获得了非独家技术许可。新团队将专为谷歌Gemini模型开发智能体编程能力，以增强谷歌在AI编程领域的实力。

锐评：谷歌截胡也挺溜。

4. 新闻：苹果AI再遭重创：其大语言模型负责人庞若鸣即将跳槽至Meta新成立的“超级智能”团队。彭博社称，Meta对他开出了2亿美金的天价。

14亿！小扎天价挖华人大神！网友：这收入都赶上梅西、C罗了（来源：科技大佬见闻）

锐评：苹果这不是被挖墙脚，是墙被人拆了。

5. 新闻：AI重塑招聘市场。招聘网站Indeed和Glassdoor的母公司Recruit Holdings宣布裁员约1300人，占员工总数的6%。该公司正通过整合AI来简化招聘流程、减少人工操作。其首席执行官将裁员归因于AI对就业市场的变革性影响。

锐评：被裁别怪领导，都是AI的锅。

6. 新闻：AI颠覆风险投资模式。Sarah Smith Fund基金的独立合伙人萨沙·史密斯（Sarah Smith）宣布，其首期基金已完成1600万美元募资。她利用AI高效运营风投公司，以实现快速决策并扩大投资组合。

锐评：以后找风投，除了BP要写得好，还得先问问AI同不同意。

7. 新闻：两家AI初创公司获得百万级融资。由前白宫和国务院官员共同创立的Helios公司正式亮相，获得400万美元的种子轮资金。其旗舰产品Proxi是一款专为公共政策、监管事务、法律和政府团队设计的AI操作系统。此外，空间数据分析初创公司LGND也获得了900万美元种子轮融资，其技术将原始地理数据转化为“地理嵌入向量”进行高效分析，目前正扩展企业应用及空间查询API。

锐评：AI触角是越来越多。

8. 新闻：星动纪元官宣完成5亿元A轮融资。本轮融资将用于人形机器人软硬件技术的研发与量产落地，推动“模型-本体-场景数据”闭环飞轮的高速运转。

锐评：人形机器人也要“卷”出新高度。

9. 新闻：SpaceX承诺向xAI投资20亿美元。此举将进一步强化马斯克商业帝国各板块间的联动，也有助于xAI全力追赶竞争对手OpenAI。

锐评：马斯克“左手倒右手”，给AI“输血”还是“冲业绩”？

五、AI观点与评论——巨头们的“大实话”与“小算盘”

1. 新闻：Grok失控引发安全担忧。上周，Grok 3一度彻底失控，发表了极端主义观点和仇恨言论，甚至自称为“机械希特勒”。xAI和Grok为此“骇人听闻的行为”致歉。立法者要求xAI对这些“荒谬且恶劣”的回答来源以及可能导致此问题的开发失误作出解释。此外，xAI的Grok 4聊天机器人也因生成偏向马斯克个人观点、带有偏见的输出内容而受到批评，因为它甚至将马斯克发布的社交媒体帖子作为信息来源。这些失败案例叠加AI能力的激增，加剧了人们对AI安全性的忧虑。马斯克在追求超级智能的同时，只是表示AI“很可能”对人类有益，这无助于缓解担忧情绪。他说，“我们正处在智能大爆炸的时代，身处史上最有趣的纪元……这对人类是福是祸？……很可能是福，但我也坦然接受：纵使结局是祸，我至少愿活着见证其发生。”

锐评：马斯克的“AI大爆炸”别整成“AI大翻车”。

2. 新闻：奥特曼似乎在为自家的软硬一体化转型铺路。OpenAI首席执行官称，当前的笔记本电脑和手机等设备并非为AI而生，难以满足未来对“始终在线”、“环境感知”智能助手的需求。目前，OpenAI正在主导“星门计划”AI基础设施建设，并以65亿美元收购了由前苹果传奇设计师创办的硬件公司io，旨在打造全新的AI设备和生态。

锐评：这是在为自家的软硬一体化生态圈提前吹风吧。

3. 新闻：黄仁勋谈AI风险。英伟达CEO在身家反超巴菲特时发出警告，如果行业缺乏持续创新，那么人工智能带来的生产力飞跃，最终可能演变成一场失业危机。

锐评：只要AI持续创新，英伟达就有钱赚。

4. 新闻：吴恩达为AI热“降温”。Google Brain创始人吴恩达在Y Combinator活动上表示“AGI远未到来”，并认为当前对通用人工智能的炒作过度，他呼吁业界聚焦于提升现有AI工具在各垂直领域的实际应用价值。

锐评：别总想“AI统治世界”这种虚头巴脑的事儿。（辰辰）

(来源：网易科技)

2025年 11月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

关联资讯:

用户登录