OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比

OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比
Grok-3才发布3天,就陷入作弊风波。 隔壁OpenAI应用主管火速掀桌:每次评估中o3-mini都要比Grok-3好,看到Grok团队作弊真是令人失望。 咋回事? 在Grok-3的Blog中有一张AIME 2025评估图令人印象深刻,两个新版本模型都超过o3-mini高配版。 但注意看,Grok-3两个模型的柱状图中都有1段颜色更浅的部分。OpenAI指责的作弊...
2025年02月22日,07时32分 科技新知 阅读 55 views 次

单张3090让大模型“看”《黑悟空》,港大百度发布VideoRAG

单张3090让大模型“看”《黑悟空》,港大百度发布VideoRAG
处理数百小时超长视频,单张3090就够了?! 这是来自香港大学黄超教授实验室发布的最新研究成果——VideoRAG。 具体而言,VideoRAG可以在单张RTX 3090 GPU (24GB)上高效处理长达数百小时的超长视频内容。这意味着只需要一张普通的显卡,就能一口气完整观看一部《黑悟空》这样的长视频。 此外,VideoRAG还拥有创新的多模...
2025年02月22日,07时56分 科技新知 阅读 19 views 次

慢思考助力医学大语言模型突破数据瓶颈:上海交大联合上海AI Lab推出MedS3系统

慢思考助力医学大语言模型突破数据瓶颈:上海交大联合上海AI Lab推出MedS3系统
编辑 | ScienceAI OpenAI o1、DeepSeek R1 等模型成功实现了在数学、编程等领域的智能慢思考推理,通过自我反思和修正实现了运行时的性能外推。 然而,在医疗领域,仍然很少有模型可以实现具有长链慢思考的推理。目前医疗领域的推理模型大多是通过在医疗考试题上对 OpenAI 系列的模型进行蒸馏,并没有考虑推理过程的可...
2025年02月21日,19时35分 OpenAI 阅读 27 views 次

最低调的AI 六小龙阶跃星辰,在 DeepSeek 浪潮中交出了一份新答卷

最低调的AI 六小龙阶跃星辰,在 DeepSeek 浪潮中交出了一份新答卷
DeepSeek 掀起的浪潮还没结束 ,不只是 OpenAI ,中国的「 AI 六小龙」都要面临拷问:Scaling Law 是否还能持续,开源还是闭源,AI 落地的路线是否还行得通。 今天,AI 六小龙中一直比较低调的阶跃星辰,率先交出今年的第一份答卷。 在首届 Step UP生态开放日,阶跃星辰公布了自己探索 AGI 的方式,开启多模态推理的技术...
2025年02月21日,19时49分 科技新知 阅读 57 views 次

聊聊DeepSeek大模型对AI Agent的影响

聊聊DeepSeek大模型对AI Agent的影响
文 | 王吉伟 DeepSeek大模型凭借卓越的性能和开源特性,引发了行业内外的广泛关注。自2025年1月20日推出DeepSeek R1以来,其下载量迅速攀升,仅20天内日活用户就突破了2000万。目前,DeepSeek日活已经突破3000万。 鉴于当前用户的使用热情,以至于DeepSeek经常出现繁忙的状态。当然随着更多企业引入DeepSeek,现在已经...
2025年02月21日,17时40分 科技新知 阅读 27 views 次

不给呼兰“留活路”的DeepSeek,如何重塑技术信仰?

不给呼兰“留活路”的DeepSeek,如何重塑技术信仰?
图片来源:网络 文|CGCVC华创资本 不久前,火星电波创始人、CEO橘子用 DeepSeek写了一段模仿呼兰风格的脱口秀,呼兰本人看过后直呼:“哎呀,不给我们人类留活路啊!”这次 DeepSeek带来的惊喜创作体验,让橘子意识到未来的内容可能不再由创作者来决定形式,而是由消费者来决定。 除了能写段子外,DeepSeek...
2025年02月21日,17时00分 科技新知 阅读 139 views 次

出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了
DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》 相较于 PPO,GRPO 去掉了价值模型,...
2025年02月21日,15时21分 OpenAI 阅读 63 views 次

弘讯科技:情绪值拉动的涨停板,难改低成长下的破圈难|钛媒体深度

弘讯科技:情绪值拉动的涨停板,难改低成长下的破圈难|钛媒体深度
2月19日,沉寂一段时间的弘讯科技(603015.SH)再次涨停,当日同花顺个股人气排名从824名飙升至81名。 此前三个月,公司先是豪取6连板,后又6天5板,累计上涨52%,股价已站上近8年高位。 但是,无论是春节前的连续涨停,还是节后人形机器人概念持续火爆下的落寞,以及眼下显露“卷土重来”势头,整个过程,热...
2025年02月21日,14时16分 科技新知 阅读 87 views 次

踹了OpenAI后,Figure光速发布具身大模型Helix,能力前所未有、创多项第一

踹了OpenAI后,Figure光速发布具身大模型Helix,能力前所未有、创多项第一
在 2 月份突然宣布终结与 OpenAI 合作之后,知名机器人初创公司 Figure AI 在本周四晚公开了背后的原因:他们已经造出了自己的通用具身智能模型 Helix。 Helix 是一个通用的视觉 - 语言 - 动作(VLA)模型,它统一了感知、语言理解和学习控制,以克服机器人技术中的多个长期挑战。 Helix 创造了多项第一: 全身控制:...
2025年02月21日,12时48分 OpenAI 阅读 57 views 次

两万字长文深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?

两万字长文深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?
刚刚过去的春节,DeepSeek-R1推理大模型引爆了国内外 AI 社区,并火出了圈。最近,各个行业又掀起了接入 DeepSeek 的狂潮,大家唯恐落后于人。 北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读,也是此前o1 解读(北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化...
2025年02月21日,12时19分 OpenAI 阅读 85 views 次

DeepSeek让腾讯阿里重新上桌了

DeepSeek让腾讯阿里重新上桌了
摘要: 巨头的动作,无疑是行业的真正风向标。继腾讯调整组织架构专攻AI产品之后,阿里也宣布未来三年在云和AI的基础设施投入预计将超越过去十年的总和。AI的发令枪,已经响了。 凤凰网科技 出品 作者|徐珍 编辑|董雨晴 “领导都认真了” 春节复工之后,在深圳一家传统企业担任行政岗位的棘棘,被通知她多了一项工作内...
2025年02月21日,11时46分 科技新知 阅读 18 views 次

月之暗面MoBA核心作者自述:一个新晋大模型训练师的三入思过崖

月之暗面MoBA核心作者自述:一个新晋大模型训练师的三入思过崖
2 月 18 日,Kimi 和 DeepSeek 同一天发布新进展,分别是 MoBA 和 NSA,二者都是对 “注意力机制”(Attention Mechanism)的改进。 今天,MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖,自述研发过程的三次踩坑,他称为 “三入思过崖”。他在知乎的签名是“新晋 LLM 训练师”。 这条回答下的一个评论是:“从开源论文、开源...
2025年02月21日,11时39分 科技新知 阅读 23 views 次

DeepSeek和美颜相机BeautyCam相继屠榜,中国AI支棱全球?

DeepSeek和美颜相机BeautyCam相继屠榜,中国AI支棱全球?
文 | 财经故事荟,作者 | 万天南,编辑 | 陈纪英‍‍‍‍ “我会变人嘞!哥,我厉害不!”在电影《哪吒2》里,申小豹向多年未见的哥哥炫耀自己的修为——变身,萌翻了千万观众。 电影里的魔妖仙们苦修几十年数百年才能掌握变身变脸变装变美等技能,在现实里,这些技能AI可以分秒完成...
2025年02月21日,11时37分 科技新知 阅读 50 views 次

DeepSeek阴影下的大厂

文 | 伯虎财经,作者 | 路费 最后一个反击DeepSeek的主要玩家终于姗姗来迟。 2月18日晚间,马斯克的 x...

早报|格力回应董明珠健康家/小米 15 Ultra 将进行爆料直播/马斯克旗下 AI 模型免费开放使用

早报|格力回应董明珠健康家/小米 15 Ultra 将进行爆料直播/马斯克旗下 AI 模型免费开放使用
OPPO Find N5 折叠屏正式发布 xAI 宣布 Grok 3 免费开放使用 幻方量化回应管理规模缩水:正常变动 Figure 机器人发布首个通用视觉语言行动模型 卢伟冰:将举行小米 15 Ultra 爆料直播 格力回应「董明珠健康家」 联想公布 2024/25 财年 Q3 业绩 饿了么:2023 年已启动蓝骑士社保缴纳试点 零一万物回应项目再拆分:顺应市...
2025年02月21日,10时30分 科技新知 阅读 44 views 次

“消失”的日本人形机器人

“消失”的日本人形机器人
文 |有界UnKnown 在这一波人形机器人浪潮里,我们似乎鲜少听到有关日本的声音。 近期,摩根士丹利发布研报《Humanoid 100》,对全球人形机器人产业链100家核心上市公司进行梳理,从总体数量分布来看: 中国占35家,美国和加拿大占35家,亚太其他地区占18家,欧洲、中东和非洲地区占12家(主要为欧洲企业)。 曾...
2025年02月21日,10时11分 科技新知 阅读 50 views 次


用户登录