一周AI大事:马斯克虚拟女友爆火,黄仁勋在中国见谁夸谁

2025年07月21日,09时08分15秒 科技新知 阅读 3 views 次

本周焦点: ChatGPT Agent、Voxtral Small、EXAONE 4.0、Runway Act-Two、Kiro AI编程IDE、Decart AI MirageLSD、Reflection AI Asimov、Copilot Vision Desktop、Liquid AI LEAP & Apollo、AWS Bedrock AgentCore。

一、重磅工具:OpenAI发布ChatGPT智能体——“AI全能助理”首秀

新闻: OpenAI推出了代号为“Odyssey”的ChatGPT智能体。这款通用型智能体融合了OpenAI旗下Operator和Deep Research两大项目的特性,能够自动访问数据、开展虚拟研究并自动完成任务。ChatGPT智能体搭载了专属的虚拟计算机环境,可运行高速文本浏览器、可视化浏览器和终端命令,并集成了各种工具和API。据介绍,ChatGPT智能体通过强化学习(RL)训练来决定使用哪种工具。

一周AI大事:马斯克虚拟女友爆火,黄仁勋在中国见谁夸谁

ChatGPT智能体在多项主流基准测试中表现抢眼:其在Humanities Last Exam测试中的得分率为42%,FrontierMath为27%,SpreadsheetBench为45%,WebArena为65%,BrowseComp为69%。这款产品的实际应用场景包括制作PPT、管理EXCEL、生成研究报告、在线购物以及执行定时任务等。ChatGPT智能体现已面向Pro、Plus和Teams订阅用户开放。

ChatGPT智能体是OpenAI首款在“生物滥用”方面被归为“高风险”的模型,但OpenAI表示已启动强力防护措施来降低相关风险。尽管ChatGPT智能体在真实场景中的表现究竟如何还有待用户检验,但其首席产品官凯文·威尔(Kevin Weil)将其归入了“勉强能用”的范畴:“(一项技术)起初似乎遥不可及,后来勉强能用;很快就变得非常出色,此后我们就再也离不开它了。”

OpenAI深夜发布"超级智能体" (来源:网易科技报道)

锐评: OpenAI终于推出了全能型AI打工仔,虽然老板自己都说“勉强能用”,但至少简历看起来很亮眼。

二、AI技术与产品发布——硬核工具“大开箱”,AI厂商各显神通

1.新闻: Mistral发布了Voxtral语音识别模型。这款开源语音识别模型提供两种版本:面向生产环境的Voxtral Small版(2.4B参数)和面向边缘部署的Mini版(0.3B参数)。Voxtral在英语及多语言任务上的词错率均低于OpenAI的Whisper large-v3,支持多达32K token上下文的长音频处理功能,还内置了音频摘要功能。Voxtral采用Apache 2.0许可协议,用户可通过Hugging Face下载,也可通过API调用。

Mistral同时还大幅升级了其聊天机器人Le Chat,新增“深度研究”模式、原生多语言推理、由Voxtral支持的语音交互,以及生成结构化、有参考文献支撑的“项目”功能。Mistral此举旨在瞄准企业级生产力应用场景,与OpenAI等对手展开竞争。

锐评: 法国AI劲旅Mistral又来卷语音识别,主打一个开源免费还比你强,听得OpenAI耳根子都痒。

2.新闻: 英伟达推出了全新推理模型套件OpenReasoning-Nemotron,包含四个基于Qwen-2.5微调的模型,参数规模分别为1.5B、7B、14B和32B,均源自6710亿参数的DeepSeek R1 0528大模型。通过“蒸馏”这一过程,英伟达成功将这一超大规模模型压缩成更轻量的推理模型,降低了部署门槛,使得即使在标准游戏电脑上也能进行高级推理实验。

锐评: 老黄刀法越来越精湛,不仅芯片切得准,现在连大模型都能“蒸馏”成浓缩精华。

3.新闻: LG发布了混合注意力模型EXAONE 4.0,提供32B和1.2B两种参数规模的版本。其中,EXAONE 4.0 32B在通用语言理解、编程和推理等基准测试中表现优异:MMLU Pro得分率为81.8%,LiveCodeBench v6为66.7%,GPQA-Diamond(科学)为75.4%,AIME 2025(数学)为85%,表现优于同等规模的Qwen 3 32B模型。EXAONE 4.0基于14万亿token的数据预训练,支持多模态内容理解(MCP)、工具调用和128K的上下文长度。同时发布的14亿参数版本则适用于边缘设备。EXAONE 4.0的开放权重模型已通过HuggingFace发布。

锐评: LG现在竟反手掏出个大模型,在跑分上还把专业选手都比下去了。

4.新闻: Runway发布了新一代动作捕捉模型Act-Two,能通过单段表演视频精准追踪头部、面部、身体和手部的动作。相比Act-One,Act-Two的保真度显著提升,其目标客群是影视、视觉特效以及游戏工作室。视频评测结果反响积极,有观点认为Runway Act-Two足以彻底改变动画制作方式。Act-Two现已向企业和创意客户开放,并将即将全面推广。

锐评: 人人都是卡梅隆的时代不远了。

5.新闻: GPT-5有望在未来几天或几周内正式亮相。有迹象表明,OpenAI正在测试一个代号为gpt-5-reasoning-alpha-2025-07-13的新模型。这款模型已于7月13日定稿,当前正处于最终测试阶段。有研究人员透露,GPT-5将融合历代模型的技术成果,打造一个统一的系统。

锐评: AI进化速度越来越快。

6.新闻: 微软更新并扩展了Copilot Vision,使其能够扫描用户的整个Windows桌面,理解屏幕内容并跨应用实现工作流的自动化。这项名为Copilot Vision Desktop Share的功能严格遵循用户选择加入(opt-in)机制,目前正逐步向Windows预览体验成员推送。

锐评: 微软Copilot终于拿到了整个电脑桌面的“偷窥”权限。

7.新闻: OpenAI更新了其图像服务API,新增“高质量模式”,以提升生成图像的分辨率和视觉细节。新模式已集成到现有API接口中,用户无需复杂操作即可获得专业级的输出效果。

锐评: 一键开启“高清无码”模式。

8.新闻: 亚马逊推出了Kiro AI编程IDE,专为“规范驱动”的代码开发而设计。用户可用自然语言或图表来定义项目需求,Kiro会自动完成设计、代码生成、文档编写和测试等工作,全程扮演的是“技术产品经理”的角色。这款工具基于VS Code分支开发,在预览期间免费,但需要排队申请。Kiro的规范驱动工作流类似于其他AI编程助手的规划与编排功能,获得了早期用户的广泛好评。这种“先规划后行动”的工作模式,是利用AI开发稳健软件的有效途径。

锐评: 亚马逊这是要用AI干掉产品经理。

9.新闻: 亚马逊在7月16日举行的AWS峰会上推出了Bedrock AgentCore,旨在助力开发者大规模地安全部署和运营智能体。Bedrock AgentCore可与CrewAI、LangGraph、LlamaIndex等框架和多种模型配合使用。此外,亚马逊云服务(AWS)还推出了面向AI智能体与工具的全新AWS Marketplace类别,为企业建立一个集中化平台,用于查找、采购和部署从采购到金融服务等各种功能的第三方智能体解决方案。

锐评: 以后亚马逊不光卖云服务,还要当中介抽成卖“AI员工”。

10.新闻: Decart AI推出了视频风格实时扩散工具MirageLSD。MirageLSD能将来自摄像头、视频通话、电脑屏幕或游戏的任何视频流,实时转换为用户想要的任何世界(延迟低于40毫秒)。AI大神安德烈·卡帕西(Andrey Karpathy)分享的视频显示,MirageLSD的实时模型支持多种应用场景,比如在视频流中创造平行现实、实时指导电影拍摄,或通过文本提示设计游戏环境。

锐评: 有了MirageLSD,电影特效师再也不用买绿幕了。

11.新闻: DuckDuckGo允许用户在搜索结果中隐藏AI生成的图片。这一功能利用了一个开源屏蔽列表,旨在大幅减少搜索结果中出现的AI图片,从而过滤掉“AI垃圾内容”。

锐评: 在全行业拥抱AI生成内容时,DuckDuckGo的反向操作堪称一股清流。

12.新闻: Slack推出了大量AI功能,以挑战微软在办公领域的主导地位。其中包括AI写作助手、消息解读、自动生成待办事项,以及跨多个关联商业应用的企业搜索。母公司Salesforce正将Slack定位为核心生产力枢纽,通过限制外部AI访问数据来遏制竞争对手,并将AI整合到现有工作流中。

锐评: Slack要在微软的办公帝国里杀出一条血路,就看用户买不买账。

13.新闻: Reflection AI发布了代码研究智能体Asimov,旨在通过全面理解代码上下文来协助工程师。Asimov在多智能体系统中整合了推理器和检索器,能够捕获代码库的整体视图,以支持工程团队构建复杂系统。

锐评: 治得了屎山代码和历史遗留问题吗?

14.新闻: Liquid AI推出了面向设备端的AI平台LEAP和Apollo,目标是“让部署AI到边缘设备变得如同调用云端模型API般简单”。LEAP是用于构建设备端模型的开发者平台,Apollo则是在本地运行紧凑型大语言模型的轻量级iOS应用。这些工具支持体积最高300MB、专为低功耗设备而优化推理的模型,无需连接云端。

锐评: 以后你的iPhone可能比云端服务器还聪明。

15.新闻: Teknium发布了Hermes 3数据集,包含近百万条高质量条目,用于支持智能体AI模型的训练。免费开放的Hermes 3数据集旨在通过提供多样化的纯净样本,来提升模型在复杂决策和工具使用任务方面的表现。

锐评: AI圈的“慈善家”又来送温暖,让各家模型都能吃饱吃好。

三、AI研究资讯——顶级研究员联名“紧盯”AI思维链,要给模型装上“安全阀”

新闻: 7月15日,40余名来自OpenAI、Meta、Google DeepMind等机构的科学家联合发布了关于AI推理模型“思维链”的立场文件,呼吁加强对AI思维链的监控研究。

文件指出,AI已能使用人类语言进行思考,其“思维链”为AI安全监控提供了独特机会。当前AI在执行复杂任务时,必须通过思维链进行推理,这让监控其潜在风险有了可乘之机。但这种可监控性较为脆弱,可能因模型架构或训练方式的改变而被削弱。科学家们警示,未来AI模型或许会隐藏其推理过程,导致监控失效。

锐评: 得赶紧趁着AI还愿意“写日记”的时候看懂它,万一哪天它学会“腹黑”就晚了。

四、AI商业与政策——融资挖人大戏不断,AI天团半数来自中国

1.新闻: 英伟达周二官宣将恢复H20芯片在中国的销售,并宣布推出面向中国市场的全新且完全兼容的GPU。AMD当天也表示,将很快恢复对华出口MI308人工智能芯片。

锐评: 兜兜转转,生意还得做。

一周AI大事:马斯克虚拟女友爆火,黄仁勋在中国见谁夸谁

2.新闻: Meta对苹果AI团队的“挖角”行动仍在继续。继本月初基础模型团队负责人庞若鸣加盟后,苹果的两名AI研究员马克·李(Mark Lee)和汤姆·冈特(Tom Gunter)也已确认将加入Meta新成立的“超级智能实验室”。

锐评: 小扎用钞票把苹果的AI人才果园快薅秃了,库克心里苦啊。

3.新闻: Meta首席执行官马克·扎克伯格(Mark Zuckerberg)宣布,该公司将投资数百亿美元兴建多座AI超算数据中心,为“超级智能实验室”提供算力保障。

锐评: 这是用钞能力铺AI高速公路。

4.新闻: Meta“超级智能实验室”的44人明星阵容曝光,其中50%的成员来自中国。从人员来源机构来看,有40%的人来自OpenAI,20%出自DeepMind,还有15%来自Scale AI。据悉,这些人的年薪有可能超过千万甚至达到上亿美元。

锐评: 最强大脑都来自中国。

5.新闻: 前OpenAI首席技术官米拉·穆拉蒂(Mira Murati)宣布成立Thinking Machines Lab,并获得20亿美元融资,用于推动开放式AI科学研究。其即将推出的首款多模态AI产品将包含对研究人员大有裨益的重要开源组件。该实验室将支持基础AI探索,并促进学术界与工业界的合作。

锐评: OpenAI“毕业”的高管出来创业融资貌似跟呼吸一样简单。

6.新闻: AI编程初创公司Cognition宣布收购AI开发者工具初创公司Windsurf,计划将Cognition的Devin AI工程师智能体整合进Windsurf的IDE,打造一个统一的AI驱动代码生成平台。此次收购前,Windsurf与OpenAI的收购谈判未能成功,而随后其公司联合创始人通过一笔24亿美元的人才交易加入了谷歌

锐评: AI工程师有了自己的专属豪宅(IDE),只不过房子原主人刚带着24亿美元搬去隔壁谷歌家了。

7.新闻: Lovable公司上线仅8个月后便获得2亿美元融资,估值达到18亿美元,一举成为独角兽公司。其Lovable vibe-coding应用能帮助用户通过自然语言创建网站和应用,目前已拥有230万用户。

锐评: AI风口上只要故事讲得好,八个月就能走完别人八年都走不完的路。

8.新闻: 特斯拉开始在美国向符合条件的车辆推送由xAI开发的人工智能助手Grok,但目前Grok尚不能直接控制车辆。当前,这一功能以Beta测试版的形式推出,激活时无需Grok账号或xAI订阅。

锐评: 特斯拉现在不仅能跑,还能跟你“扯淡”了。

9.新闻: 马斯克于上周一宣布,Grok付费订阅用户现可试用AI聊天机器人的新版“虚拟伙伴”功能,目前仅支持iOS端,月费30美元。首批上线的虚拟形象包括动漫角色Ani和卡通熊猫Rudy,其中Ani设有“NSFW模式”,Rudy还支持“Bad Rudy”模式。该产品一经推出便迅速冲上X平台热搜。

一周AI大事:马斯克虚拟女友爆火,黄仁勋在中国见谁夸谁

锐评: 宅男的福音来了。

10.新闻: 马斯克周日通过社交平台X宣布,其人工智能公司xAI将开发一款专为儿童设计的应用“Baby Grok”。据报道称,马斯克未透露“Baby Grok”的具体功能细节,仅表示该应用将为儿童提供“友好型内容”。

锐评: AI也要从娃娃抓起。

11.新闻: Netflix开始在影视制作中使用生成式AI。该公司联席CEO泰德·萨兰多斯(Ted Sarandos)证实,由生成式AI制作的最终镜头已经出现在剧集《永航员》(El Eternauta)中,据称制作速度提升了10倍,成本也显著降低。此外,Netflix还利用AI进行个性化推荐、搜索和投放广告。

锐评: 以后看的剧,可能编剧是AI、特效是AI,演员的脸说不定也是AI换的。

12.新闻: 语音AI专业公司SoundHound在医疗健康领域取得重要进展,其AI语音助手已部署到多家诊所和医院,用于简化患者入院登记、预约安排和医生问询等关键工作流程。

锐评: 以后导医台说话的可能不是护士小姐姐,而是不知疲倦的AI。

13.新闻: Meta拒绝签署欧盟的自愿性《AI行为准则》,理由是这套准则存在法律不确定性,且部分措施已超出《AI法案》的范围。这一决定在欧盟针对通用AI模型的新规生效前几周做出,表明Meta认为这套准则将阻碍欧洲的AI发展。

锐评: 小扎说欧洲规矩太多,我先不陪你们玩了。

14.新闻: 来自OpenAI和Anthropic的AI安全研究人员批评马斯克的xAI公司存在“鲁莽”的安全文化。他们指出,xAI未按行业标准发布Grok模型的安全报告,且发生过Grok发表仇恨言论等事件。

锐评: 同行都说马斯克的AI是个熊孩子。

五、AI观点与评论——巨头们的“大实话”与“小算盘”

1.新闻: 黄仁勋在出席链博会时称赞阿里、腾讯等中国AI模型“世界一流”,并强调中国市场对H20芯片的强劲需求。黄仁勋还认为,AI正在为中国供应链创造“新增长点”,而对美国企业而言,扎根中国“至关重要”。此外在谈到AI演进时,黄仁勋认为,未来AI将从文本/图像大模型向物理AI演进,实现物理规律的建模与仿真。

锐评: 黄老板一边卖力推销自家芯片,一边不忘给中国客户戴高帽,商业头脑满分。

2.新闻: 克莱利亚·阿斯特拉·贝尔泰利(Clelia Astra Bertelli)所著的《向量搜索漫游指南》是一份基于文本向量搜索构建生产级RAG系统的详细指南,被开源工具平台LlamaIndex联合创始人Jerry Liu誉为“入门必读”。这份指南涵盖了AI系统中RAG和知识管理的多个方面:文本提取、分块、嵌入向量、利用语义缓存增强搜索效果、查询重写等。

锐评: 大佬都推荐的“武功秘籍”,赶紧收藏学习。

3.新闻: 《AI蛇油》(AI Snake Oil)作者阿尔温德·纳拉亚南(Arvind Narayan)和萨亚什·卡普尔(Sayash Kapoor)近日发表了一篇批判性文章,认为AI可能正在加剧“产出-进步悖论”,即科研论文产出呈指数级增长,而实际科学进步却停滞不前。他们主张,AI公司的目标与科学研究存在错位,当前用于科学的AI工具也走错了方向,只关注如何制造“AI发现X!”这类博人眼球的头条新闻,而不是解决真正的科研瓶颈问题。

锐评: 论文越发越多,突破越来越少,AI这是在帮科学家“刷KPI”,还是在拖科学进步的后腿?(辰辰)

(来源:网易科技)



用户登录