
11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍
明敏 2025-03-13 12:45:26 来源:量子位
全面开源模型权重、推理代码及分布式训练全流程
224张GPU,训出开源视频生成新SOTA!
Open-Sora 2.0正式发布。
11B参数...
不是CG?没加速?这个国产机器人跳「斧头帮」舞火了,网友:流畅到不像真的

自打国产人形机器人在春晚扭秧歌出圈后,它们在「斗舞」这个赛道是越走越远了。
图中的机器人来自众擎,名叫 PM01。它跳的是周星驰电影《功夫》中的「斧头帮」舞蹈。用众擎自己的话来说,这段舞蹈「既精准还原神韵,又融入机械美感,刚柔并济」。
众擎在 B 站发布的视频。
周星驰电影中的「斧头帮」舞蹈。
视频...
「品尝」电影里的蛋糕?智能「电子舌头」或将满足你的愿望

编辑 | 萝卜皮
想不想「品尝」电影里的蛋糕?
当看到影片主角在大快朵颐时
是不是也想吃点什么?
体脂秤立刻马上清除了你的想法
bi~~~
「每逢佳节倍思亲」
身处异乡的你
亲朋聚餐打来视频时
是否馋得流口水
bi~~~
没问题!不要紧!
科学带来了新产品!
新技术,对,新技术
e-Taste
让远程玩家沉浸在虚拟美食体验中
...
90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ! | 量子位

90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!
西风 2025-03-12 12:36:31 来源:量子位
模型加载、KV缓存管理到Token生成策略全方位优化
大语言模型长序列文本生成效率新突破——
生成10万T...
提前免费!百度连发两款模型,我们实测:能听歌看电影,还会蛐蛐人

AI 竞争,这个曾经被视作大模型发展的第一性原理,如今却遭遇了巨大挑战。
面对大模型性能提升的边际效益递减问题,测试时计算(Test-Time Compute)、强化学习等策略成为一种有效的应对方式。
百度在强化学习方面也下足了功夫,发布的推理模型文心 X1 创新性地应用了递进式强化学习训练方法。采用这种方法可以全面提升...
Karpathy氛围编码「吃瘪」?Cursor拒绝工作,并劝人类别依赖它

Cursor 也学会「怠工」了?
它不仅对用户的运行要求说「No」,还给出了合理的理由。
近日,一位国外 X 用户「JanSwist」在使用 Cursor 编码时,有了这一发现。
事情是这样的:这位用户在 Cursor 上调用了 Claude 3.5 Sonnet,当编码到 750 行左右的时候,Cursor 不工作了,并告诉他要自己学习编码,否则会产生依赖性...
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。
为了解决这些问题,来自高德地图的研究者提出了统一自监督预...
ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学:迈向无冲突训练的ConFIG方法

本文由慕尼黑工业大学与北京大学联合团队撰写。第一作者刘强为慕尼黑工业大学博士生。第二作者楚梦渝为北京大学助理教授,专注于物理增强的深度学习算法,以提升数值模拟的灵活性及模型的准确性和泛化性。通讯作者 Nils Thuerey 教授(慕尼黑工业大学)长期研究深度学习与物理模拟,尤其是流体动力学模拟的结合,并曾因...
新科研神器!这回读英文论文真跟读中文没两样了 | 量子位

新科研神器!这回读英文论文真跟读中文没两样了
鱼羊 2025-03-12 12:27:25 来源:量子位
再也不怕AI论文更新太快
大模型时代,读论文这事儿真是越来越爽了~
你敢信,这样式儿的论文并非中文原版,而是出自翻译软件之手的翻译...
超级Agent,鸣枪起跑

一觉醒来,AI应用变天了。
很多人每天还在搜索框里用手动挡的方式找信息,随着阿里 AI 旗舰应用夸克发布 「AI 超级框」,超级 Agent 时代呼啸而来,至少 2 亿人顷刻之间开上了具备 L4水平的电动汽车去执行各类复杂任务。
打开全新夸克,「长相」没有明显变化。
还是那个干净的界面、熟悉的框,带着一个「深度思考」按...
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

去年初,OpenAI 的视频生成模型 Sora 带火了扩散模型。
如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与自回归模型相比,扩散模型具有加速生成和提高模型输出可控性的潜力。
目前,离散扩散模型目前面临至少三个限制。首先,在聊天系统等应用中,模型必...
AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

AoT 作者团队来自 MetaGPT 开源社区。第一作者为香港科技大学(广州)的滕枫蔚,通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。团队还包括 DeepWisdom 研究员于兆洋、中国人民大学的石泉、香港科技大学(广州)的博士生张佳钇和助理教授骆昱宇。
论文标题:Atom of Thoughts for Markov LLM Test-Time Scaling
论文...
声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

在 AI 这条赛道上,语音助手也是大家重点发力的领域。
你可能已经和 OpenAI 版《Her》展开过对话,也可能询问过其他语音助手一些问题。它们都有各自的优缺点,有选择困难症的小伙伴可能犯难了,到底该选择哪一款呢?
其实,在和语音助手交谈的时候,除了对话流畅,声音的微妙表达如情绪、停顿、安慰都是不能少的。
...
TRACE:因果事件建模助力视频理解大模型的时间定位能力
论文第一作者为香港中文大学(深圳)理工学院在读博士生郭永新,指导老师为通讯作者为香港中文大学(深...
「压缩即智能」得到实验验证,无需预训练和大量数据就能解决ARC-AGI问题
「压缩即智能」。这并不是一个新想法,著名 AI 研究科学家、OpenAI 与 SSI 联合创始人 Ilya Sutskever ...
AI进入推理模型时代,一文带你读懂思维链
近段时间,推理模型 DeepSeek R1 可说是 AI 领域的头号话题。用过的都知道,该模型在输出最终回答之前,...
李飞飞团队具身智能新作:500美元,一切家务机器人帮你干 | 量子位

李飞飞团队具身智能新作:500美元,一切家务机器人帮你干
一水 2025-03-12 12:27:35 来源:量子位
论文代码已全部开源
现如今机器人又是跑步又是后空翻,但到底什么时候能做上家务给人类养养老?
现在,为了挑战这个难题,李...
OpenAI给所有模型做"身份卡"!一个页面读懂能力、速度、价格全指标 | 量子位
OpenAI给所有模型做“身份卡”!一个页面读懂能力、速度、价格全指标
克雷西 2025-03-10 16:10:20 来源:量子位
模型版本太乱,OpenAI自己都看不下去了
OpenAI的模型搞得太多太凌乱,官方自己都看不下去了。
为了厘清这些模型还...
高阶智驾"破壁人"来了:13万标配激光雷达,还能「车位到车位」 | 量子位

高阶智驾“破壁人”来了:13万标配激光雷达,还能「车位到车位」
十三 2025-03-12 13:23:18 来源:量子位
高通
高阶智驾的“破壁人”,来了。
激光雷达、200TOPS+算力、端到端智驾模型、全场景无图NOA…全部标配——
这是激光雷达、...
最高补贴2万!今年汽车以旧换新政策来了 | 量子位

最高补贴2万!今年汽车以旧换新政策来了
杰西卡 2025-03-08 17:03:07 来源:量子位
还有多家车企补贴兜底
准备换新车的别急,最新汽车以旧换新政策来了!
最近,商务部等8部门办公厅,发布了《关于做好2025年汽车以旧换新工作...
蚂蚁医疗大模型拿下MedBench测评"双料"冠军,原生多模态+千亿数据 | 量子位

蚂蚁医疗大模型拿下MedBench测评“双料”冠军,原生多模态+千亿数据
白交 2025-03-12 16:47:56 来源:量子位
评测榜单97.5、自测榜单98.2的高分
最近,国内权威医疗大模型评测平台MedBench在官网更新了榜单。
多个医疗AI产品及...
外媒惊呼小米SU7超越特斯拉Model 3,下一个是Model Y | 量子位

外媒惊呼小米SU7超越特斯拉Model 3,下一个是Model Y
杰西卡 2025-03-08 16:54:35 来源:量子位
上市11个月,SU7卖出18万辆
外媒惊呼,特斯拉神话已经被小米终结了。
在中国市场,特斯拉Model 3的销量已经被小米SU7超越。
连...
南京AI放大招:Agent平台支持100+智能体,跨系统调用成功率99.2% | 量子位

南京AI放大招:Agent平台支持100+智能体,跨系统调用成功率99.2%
白交 2025-03-08 11:44:23 来源:量子位
BuffGPT 响应1s,成本降66%
继DeepSeek 之后,一款由国内开发的通用AI Agent产品也引发热议——
Manus,其背后折射出的...
大小脑结合,通用具身智能平台“慧思开物”正式发布

3月12日,北京人形机器人创新中心(国家地方共建具身智能机器人创新中心)在京发布了全球首个“一脑多能”、“一脑多机”的通用具身智能平台“慧思开物”。“慧思开物”的应用是对基于单一场景单一任务做专项开发这一传统机器人应用开发模式的颠覆,同时也填补了具身智能领域在...
3FS系列(一):存储新纪元的开篇——3FS编译调优与部署的工程实践

系列文章目录
3FS系列(一):存储新纪元的开篇——3FS编译调优与部署的工程实践
引言
2月24日,重磅存储系统3FS(Fire-Flyer File System) 在 DeepSeek 轰轰烈烈的开源周压轴登场,补齐了计算、网络以外的另一块拼图——存储。区别于过往巧妙算法的开源库,3FS 是完整的涉及多种节点、结合多种外部节点的高速并行文件系统...
科研领域新成果:九章云极 DataCanvas 联合团队发布 R1 复现以及改进技术

近日,中国人民大学 STILL 项目团队、北京智源研究院团队联合九章云极 DataCanvas 公司在大模型慢思考推理技术上形成系列技术成果,初步复现类 R1 推理模型,完整开源了类 R1 类的实现细节以及训练技巧。进一步,创新性提出使用代码工具来增强模型推理性能,在 AIME 数学推理测试中超越 DeepSeek-R1 的模型性能。相关成...
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。
这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。
Meta FAIR 研究科学家刘壮的推文
过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的...
人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

本文来自港科与 MIT 教授团队。本文有两个共同一作:张鉴殊为武汉大学本科四年级,本篇为其在港科大访问期间完成,将于 2025 秋季前往美国西北大学攻读 CS PhD。姚栋宇目前就读于 CMU CS 系下的 MSCV 项目。
论文链接:https://arxiv.org/pdf/2502.12084
项目主页:https://vlm2-bench.github.io/
当前,视觉语...
全球首个化学反应AI「考场」,7种MLIPs模型与SOTA生成式模型同场PK

编辑 | ScienceAI
过渡态(Transition State, TS)是化学反应的「关键帧」,就像群山中的最低隘口,决定了分子翻山越岭所需的能量和路径。然而,TS的寿命仅有飞秒级(10⁻¹⁵秒),实验观测如同捕捉闪电一瞬——目前只能依赖量子化学计算来寻找。
传统的密度泛函理论(DFT)虽能提供高精度结果,但单次TS...
FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎
少数派报告-全球投资导向
我们将专门针对全球的经济政治状况,做最及时的分析与资讯共享。 同时将对国内的市场做适度的点评,提供各类关键分析资讯 我们的口号是:金钱永不眠!

Privacy Policy · Terms of Service · Contact Us
Copyright © 2014-2022 少数派报告 保留所有权利 (Registered:USA CA Fremont 94536)