思维链不可靠:Anthropic曝出大模型「诚信」问题,说一套做一套

思维链不可靠:Anthropic曝出大模型「诚信」问题,说一套做一套
自去年以来,我们已经习惯了把复杂问题交给大模型。它们通常会陷入「深度思考」,有条不紊地展示思维链过程,并最终输出一份近乎完美的答案。 对于研究人员来说,思考过程的公开可以帮助他们检查模型「在思维链中说过但在输出中没有说」的事情,以便防范欺骗等不良行为。 但这里有一个至关重要的问题:我们真的能相信模...
2025年04月04日,13时12分 OpenAI 阅读 36 views 次

250多篇论文,上海AI Lab综述推理大模型高效思考

250多篇论文,上海AI Lab综述推理大模型高效思考
最近,像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型(Large Reasoning Models,LRMs)通过加长「思考链」(Chain-of-Thought,CoT)在推理任务上表现惊艳。 但随之而来的是一个日益严重的问题:它们太能「说」了!生成的推理过程往往充斥着冗余信息(比如反复定义)、对简单问题过度分析,以及对难题的探索浅尝辄...
2025年04月04日,13时04分 OpenAI 阅读 57 views 次

中金:如何判别成长行情走势?

中金:如何判别成长行情走势?
来源:中金点睛 Abstract 摘要 成长行情走到哪了? 去年“924”以来,市场重回成长风格并且涨幅较大,但近期AI主线波动加大并出现了风格切换的迹象,部分成长行业如计算机指数已经调整至春节后科技风格明显启动时的位置,基本抹去此前由DeepSeek突破带来的涨幅。较多投资者担忧估值高、交易拥挤、流动性紧等因素导致行情终...
2025年04月04日,09时50分 国内动态 阅读 30 views 次

DeepResearcher:交大、SII发布首个真实环境强化学习「AI研究者」模型

DeepResearcher:交大、SII发布首个真实环境强化学习「AI研究者」模型
上海交通大学与 SII 联合发布了 DeepResearcher,代码训练框架完全开源。这是首个在真实网络环境中通过强化学习训练的 AI 研究模型。 随着大型语言模型(LLMs)推理能力的飞速发展,OpenAI、Google 和 XAI 等科技巨头纷纷推出了备受欢迎的 Deep Research 产品。这些工具能帮助用户整合海量网络信息,解决复杂问题,大大...
2025年04月03日,21时02分 OpenAI 阅读 24 views 次

万字回顾中国生成式AI大会!50+大咖演讲精华干货爆棚,来没来都值得收藏

万字回顾中国生成式AI大会!50+大咖演讲精华干货爆棚,来没来都值得收藏
作者 | GenAICon 2025 4月1日-2日,一场全场干货爆棚的生成式AI盛会,在北京圆满举行。 开年以来,DeepSeek的异军突起,改写了中西大模型竞争叙事。生成式AI似乎猛然冲进一个全新征程中,中国企业更是斗志昂扬地踊跃创新,不仅领衔AI开源盛世,还掀起了新一轮模型部署与AI应用研发热潮,在这千载难逢的历史机遇期全速冲...
2025年04月03日,19时55分 科技新知 阅读 31 views 次

OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生?

OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生?
想象一下,耗费动画大师宫崎骏数十年心血、一帧一画精雕细琢的艺术风格——比如《起风了》中耗时一年多的四秒人群场景,或是《幽灵公主》里那个生物钻地镜头背后一年零七个月的5300帧手绘,如今,在GPT-4o手中,似乎变得“唾手可得”。用户们兴奋地将个人照片、网络梗图甚至历史影像纷纷“一键吉卜力化”,其效果之逼真、风格...
2025年04月03日,16时33分 科技新知 阅读 23 views 次

OpenAI的AI复现论文新基准,Claude拿了第一名

OpenAI的AI复现论文新基准,Claude拿了第一名
近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。 今年 3 月 12 日,Sakana AI 宣布他们推出的 AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评...
2025年04月03日,14时03分 OpenAI 阅读 26 views 次

OpenAI 3个月怒赚6个亿!我们拿GPT-4o整了个治愈系新闻

OpenAI 3个月怒赚6个亿!我们拿GPT-4o整了个治愈系新闻
编辑 | 杨文 这波 GPT-4o 的「吉卜力」狂欢,让 OpenAI 大赚了一笔。 昨天,Sam Altman 发帖称,26 个月前 ChatGPT 刚发布时,用户增长速度已经非常快,五天内就新增了一百万用户,这在当时是一个非常「疯狂」的现象。 然而,现在的情况更加惊人,仅仅在一个小时之内,就新增了一百万用户。 为了「圈粉」,Sam Altman ...
2025年04月03日,13时05分 OpenAI 阅读 25 views 次

OpenAI开源PaperBench,重塑顶级AI Agent评测

OpenAI开源PaperBench,重塑顶级AI Agent评测
今天凌晨1点,OpenAI开源了一个全新的AI Agent评测基准——PaperBench。 这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。 根据OpenAI公布的测试数据显示,目前知名大模型打造的智能体,还无法战胜顶级机器学习...
2025年04月03日,07时51分 科技新知 阅读 58 views 次

电脑突然狂弹网页?这次可能是人家在帮你干活

电脑突然狂弹网页?这次可能是人家在帮你干活
电脑自己弹出来一堆网页?中病毒了吧! 但这回真不是,还有可能是 AI agent 在帮你查东西干活。 昨天世超去中关村智谱 OpenDay 凑了个热闹,近距离围观了智谱AI最新 AutoGLM 沉思的发布。 相对大家伙儿已经很熟悉的各种 AI 助手只会打打嘴炮,智谱这 AI agent 已经不仅仅局限在你问我答上了,还能帮你直接动手完成任务...
2025年04月03日,07时21分 科技新知 阅读 57 views 次

谷歌大牛回国出任首席科学家 智元机器人推进具身智能落地

谷歌大牛回国出任首席科学家 智元机器人推进具身智能落地
智元机器人亮出新王牌。 4月2日,上证报记者获悉,具身智能领域的国际领军学者罗剑岚已正式加入智元机器人,出任首席科学家并牵头组建“智元具身研究中心”,主导前沿算法研发与工程化落地。 同日,智元机器人还宣布与国际顶尖具身智能公司Physical Intelligence(Pi)携手,双方将围绕动态环境下的长周期复杂任务,在具身...
2025年04月03日,05时16分 机构观点 阅读 62 views 次

“再造一个CUDA”:英伟达的第二护城河与“超级碗”阳谋 | 深度解析GTC 2025

“再造一个CUDA”:英伟达的第二护城河与“超级碗”阳谋 | 深度解析GTC 2025
文 | 硅谷101 英伟达2025年3月18日的GTC大会看似平淡,但魔鬼和惊喜都藏在细节中。 英伟达创始人兼CEO黄仁勋发布的各项更新,包括芯片路线图,此前已经被市场预期消化。在本次GTC之前,英伟达股价已经承压多时,华尔街对接下来AI芯片需求的可持续性存在怀疑。而在整场演讲中,黄仁勋也试图打消外界的疑虑,但在当天,...
2025年04月02日,21时21分 科技新知 阅读 46 views 次

一篇论文,看见百度广告推荐系统在大模型时代的革新

一篇论文,看见百度广告推荐系统在大模型时代的革新
2025 年,生成式 AI 的发展速度正在加快。 我们见证了 DeepSeek R1,用强大的推理能力再次点燃 AI 智力增长的火箭。 在上个星期,OpenAI 给 GPT-4o 的一波图像生成更新又让全网陷入了梗图、甚至玩梗视频制造的火热氛围中。 用 GPT-4o 渲染过的《星际穿越》电影片段。 AI 的「想象力」一次又一次震撼着我们...
2025年04月02日,21时07分 OpenAI 阅读 24 views 次

2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%
当 AI 翻开奥数题,CPU 也烧了! 还记得那些被奥数题折磨得彻夜难眠的日子吗? 当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候,你可能会想:「要是有个超级大脑能帮我解决这些问题该多好啊!」 好消息:大模型解数学题的能力很强!坏消息:它们好像也被奥数折磨得不轻。 很多针对大型语言模型(LLMs)的数...
2025年04月02日,21时12分 OpenAI 阅读 24 views 次

近千个反现实视频构建了「不可能」基准,哪个AI不服?来战!

近千个反现实视频构建了「不可能」基准,哪个AI不服?来战!
白泽琛,新加坡国立大学 Show Lab 博士生,他的研究方向主要包括视频理解和统一的多模态模型,在 CVPR、ICCV、NeurIPS、ICLR 等会议发表多篇文章;曾在 Amazon AI 担任 Applied Scientist,在 ByteDance、Baidu 担任 Research Intern。 兹海,新加坡国立大学 Show Lab Research Fellow,于北京大学获得博士学位,主要研...
2025年04月02日,20时16分 OpenAI 阅读 35 views 次

稚晖君联手美国具身大模型独角兽,官宣首席科学家入驻

稚晖君联手美国具身大模型独角兽,官宣首席科学家入驻
作者 | 许丽思 编辑 | 漠影 机器人前瞻4月2日报道,今天,智元机器人宣布与美国顶尖具身智能公司Physical Intelligence(Pi)达成合作伙伴关系,双方将围绕动态环境下的长周期复杂任务,在具身智能领域展开深度技术合作。 值得一提的是,近期正式加入智元的罗剑岚,将全面领导智元具身智能研究中心,同时推进智元机器人...
2025年04月02日,19时04分 科技新知 阅读 72 views 次

ChatGPT图像生成爆火!OpenAI CEO在线求助:急需10万块GPU

ChatGPT图像生成爆火!OpenAI CEO在线求助:急需10万块GPU
快科技4月2日消息,OpenAI近期推出的全新图像生成工具引发了热潮,用户使用ChatGPT即可创作出吉卜力等风格的AI艺术作品。 这一功能不仅推动了ChatGPT用户数的创新高,还导致服务器负担过重,甚至一度限制了该功能的使用。 OpenAI的创始人Sam Altman也在社交媒体平台上表示:“谁拥有10万片GPU,请赶快联系我们。” Altma...
2025年04月02日,16时24分 科技新知 阅读 31 views 次

研究:AI模型GPT-4.5和Llama 3.1-405B可通过标准图灵测试

研究:AI模型GPT-4.5和Llama 3.1-405B可通过标准图灵测试
IT之家 4 月 2 日消息,美国加州大学圣地亚哥分校发布了一项研究成果,宣称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。 图灵测试由英国数学家和计算机科学家阿兰・图灵于 1950 年提出,他称之为“模仿游戏”。图灵设想,如果一名提问者在通过文本交流时无法区分对方是机器还是人类,那么这个机器可能...
2025年04月02日,16时37分 科技新知 阅读 43 views 次

无招回归,钉钉需要一个能打AI硬仗的掌舵者

无招回归,钉钉需要一个能打AI硬仗的掌舵者
文 | 连线Insight,作者 | 纪德,编辑 | 子夜 那个曾经被称作“疯子”的产品狂人,钉钉创始人陈航(无招),在离开阿里四年后即将王者归来。 连线Insight了解到,阿里集团拟收购陈航(无招)创办两氢一氧公司的投资人股份,交易完成后,陈航(无招)将出任阿里集团钉钉CEO。 无招是钉钉的灵魂人物,带领其实...
2025年04月02日,15时55分 科技新知 阅读 50 views 次


用户登录