华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

2025年06月14日,15时12分59秒 科技新知 阅读 8 views 次

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

作者:Kyla、王兆洋

CVPR是一个“冷门学术会议”的时代一去不复返了。

2024年,因为大模型以及Sora等的横空出世,全球计算机视觉届三大顶会之一的CVPR涌入了破纪录的1.2万人(可以回顾一下我们去年的现场报道)。而2025年,这种火热继续,虽然关注度没有上一届那么夸张,但我们今年在现场参会的观感,以及与诸多研究者交流的感受是:

它从一个学术交流、计算机科学家聚会、新的研究idea亮相与碰撞的会议,开始转为了工业界与学术界互动、AI公司抢夺注意力和人才、更偏向实际应用及工程化的成果集中展示的AI行业大聚会。

今年的CVPR在美国田纳西州纳什维尔举办。6月11日开幕,6月13日最佳论文等官方的奖项颁奖,之后多日是各种poster展示和各类交流论坛和线下聚会。

今年CVPR上重要和有意思的事情也不少:

最佳论文给到了VGGT,这是一个最近少有的被很多人评价为“实至名归”的成果。

3D似乎正在来到彻底爆发的前夜,成为高质量论文和Demo出现的重要方向。

“世界模型”的名字越来越多的出现在各种论文、poster session和workshop里。

偏向应用和工程的,离产业界更近的研究肉眼可见的多了起来,大厂们逐渐抢夺走CVPR上更多的注意力。

去年第一次没有论文被选中的ResNet架构提出者、AI明星研究员何恺明,回归大会,除了论文和分享讲座,他也是最佳论文委员会成员之一。

而诸多年轻研究员继续在CVPR上完成着自己学术追星的计划,比如与何恺明的各种合影充满了社交媒体

以下是我们从现场发回的一手直击。

1

最佳论文再次是华人一作,3D和世界模型大热

许多参会者是第一次来纳什维尔。当你走出这座美国中部城市的机场,你立刻就能感觉到,身边背着电脑包、拖着行李箱、戴着大会证件的人特别多,市区的酒店几乎全满,早上打车还得排队。人山人海,明显不是纳什维尔平常的节奏。

6月13日,CVPR颁发最佳论文奖,人们涌入会场,会场大厅里是各种肤色、各种语言的交汇。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

根据CVPR官方的介绍,今年共有 14 篇论文入围最佳论文,最终 5 篇论文摘得奖项,包括 1 篇最佳论文、4 篇最佳论文荣誉提名。另外还有学生最佳论文奖。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

最终获得最佳论文的,是VGGT的工作——VGGT:Visual Geometry Grounded Transformer。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

这是一个可以实现从多个图像数据里推出关键的3D属性的技术,比如从一些二维的图片,来得到相机参数、点云、深度图等用于3D重建的关键信息。在实现上,它用一次Transformer的典型的前馈输入和神经网络的处理操作,可以把3D的数据提取推导全部做完,也就是行业最热议的“端到端”的概念,而且据论文展示,它的速度也比传统的方法快了10多倍,可以在几秒内就完成一次复杂的任务。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

它简洁而效果很好,而且,这个研究是典型的对于工业界价值极大的节点性的论文——它证明了一个方向,然后降低了一个行业应用爆发的门槛,同时,给那些有充分计算资源的大厂指明了一条充满诱惑的道路。

去年的CVPR最佳论文之一,第一作者是华人研究员。而今年这篇最佳论文的第一作者也是华人研究员。

王建元是牛津大学视觉几何组(VGG)与 Meta AI 的联合培养博士生,长期研究3D 重建方法,聚焦于端到端几何推理框架的创新。之前,他的许多工作就被行业关注,包括去年CVPR的Highlight论文,VGGSfM(一个能从大量图像中自动重建三维场景结构和相机位姿的系统),以及PoseDiffusion(将相机位姿估计视为一个扩散Diffusion过程,通过学习多视角下条件分布的扩散模型,逐步优化相机参数)。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

图源:王建元的X

根据会方统计,今年大会共收到 4 万多名作者提交的 13008 份论文,再破纪录。相比去年投稿数增长 13%,2872 篇论文被接收,最终接收率约22.1%。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

有意思的是,在一个研究竞争激烈的领域,VGGT的获奖被不少人形容是实至名归,毫无悬念。“它开创了新的阶段,代替了此前的主流方法。有点类似当初RestNet的意义。”一名研究员说。

CVPR就像是时尚行业每年定义当年流行元素的大会,它的风潮也总在变化。去年,结合语言和视觉的论文增加了两倍,扩散模型和生成模型论文增加了三倍。那些有OpenAI Sora作者参加的workshop,排队排出了明星见面会的效果。

今年Sora早已被人忘掉。但生成式AI继续火热。官方数据显示,今年接收数量最多的依然是图像与视频生成领域。

不过,可能更能体现风向标变化的是接收率。今年接收率最高的是3D相关的研究。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

另外,在我们参加的workshop,以及和各路人马的交流中,明显感受到“世界模型”这个词也出现的更多了。

我们在现场和几位researcher的交流,也提到,今年生成式AI、3D视觉、多模态相关的论文和talk热度最高,世界模型和3D Gaussian Splatting反复被提起,不少session满场。

最佳论文候选中,AI大佬Yann LeCun参与的Navigation World Models,提出了一个可控的视频生成模型,用于环境导航的世界模型。

在6月11日备受关注的CVPR自动驾驶的workshop里,世界模型方向也得到很多讨论,其中作为被邀请的唯一汽车厂商,小鹏的相关研究也展示了一个从真实驾驶数据中训练出的高保真世界模型。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

3D正在快速进入实际场景,世界模型也得到了类似的关注,似乎真的都开始走向应用。

1

“很多idea都开始面向产业应用”,大厂存在感继续增高

CVPR上的workshop琳琅满目。而其中越来越多的讨论里,会有更多工业界的人参与其中。会场里,像Meta、NVIDIA、Google、Apple等企业logo遍布,很多researcher也挂着这些公司工牌,企业研究人员的占比明显上升。不少技术talk和panel讨论直接围绕“从论文到产品”的话题,工业界和学术界的界限在进一步模糊。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

中国公司也十分抢眼。腾讯的企鹅长鹅飘在半空中,字节、阿里都有各自的活动,宇树的展区也在准备接受“围堵”。我们趁着“堵车”前去拍了一些照片。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

今年CVPR的现场氛围非常快节奏,走廊里总是有人飞快穿梭、低头看会议手册查下一个workshop在哪儿。很多人在走廊边的椅子上抱着电脑工作,咖啡区永远排着长队。Poster区尤其热闹,几乎每一张海报前都围着一圈人。

研究者们一边讲解,一边被各种提问“这个能不能商用”,“模型开源了吗”。

务实的很。

作为今年很重要研究方向,3D相关的论文和demo很多也是工业界关注的焦点。像3D Gaussian Splatting,很多demo现场直接展示出高质量、实时的3D重建效果,吸引了不少人围观。生成式AI依然是焦点,不少论文探索如何结合3D、物理世界信息提升生成效果,技术演示上也更强调实用性和效率。今年整体感觉是demo和应用性变强了,很多成果已经能直接服务工业界需求。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

工业界和学术界进一步融合,是今年CVPR现场很明显的感受。从录用论文来看,偏应用、偏工程、关注实际落地效果的研究变多了,很多论文直接针对工业界需求展开,行业关注度很高。

产业界和学术界共同设置的workshop门口经常排队,比如一场“基于基础模型的开放词汇 3D 场景理解”的workshop,座位要提前20分钟去才有位置,人多到会议室后面的空余的地上都坐满了人。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

有去年也参会的研究员对我们说,今年产业界参与感更强,企业研究和学术交流结合更紧密,CVPR“出圈”的趋势更明显了。

1

顶流何恺明们,“应该也被合照合烦了吧”

在会场到处穿梭,就可能遇到一些学术明星。CVPR也是一个学术追星的“重灾区”。

其中,何恺明一直是CVPR的顶流。他是ResNet这个计算机视觉领域的流行架构的提出者,相关论文的引用数量突破20万次,曾经多次获得CVPR最佳论文奖。

因此,当去年CVPR成为历史上最火爆的一次,却同时也是第一次没有何恺明参与的论文入选的一次CVPR时,引发了广泛的讨论。也成了当时CVPR出圈的讨论话题之一。

而今年,何恺明“回归”,他担任了最佳论文评委委员之一,在颁奖前参与了workshop,做了一个演讲。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

这也让何恺明显的“无处不在”,在小红书上,有很多与何恺明合影的研究员,以及在各种角落偶遇何恺明的人们。不过对于何恺明的这场讲座,似乎很少有人在分享讲座本身的内容。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

“他应该也被合影合烦了吧。”一名研究员说。

其实,除了何恺明,华人研究员在CVPR的存在感也很强,而且今年感觉越来越耀眼。

最佳论文里除了一作,另一位作者Minghao Chen来自牛津大学,同时在Meta GenAI实习。最佳论文提名里,另一个很棒的研究MegaSam,第一作者Zhengqi Li,正是去年CVPR最佳论文之一的第一作者。在最佳学生论文的荣誉提名里,浙大、北大等高校也在列。

另外,华人年轻AI科学家谢赛宁和苏昊也得到了青年学者奖。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

贾扬清在2014年参与的论文Going Deeper with Convolutions(由Google的研究组提出的一种高效的卷积神经网络模型,在ImageNet分类任务中取得了优异成绩,核心在于采用了Inception模块来提高网络性能。所以经常被人称为GoogleNet),得到了时间检验奖。

知名的AI学者、Idea研究院创院理事长沈向洋也在当天开幕上做了主旨演讲。

华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们

很多研究者跟我们交流中提到,今年不只是中国的研究者,来自中国企业的论文质量也很突出,讨论度很高。产业界的存在感也很强。整体看,中国研究者无论在学术圈还是产业圈,都在CVPR上有越来越重要的影响力。

当然,这样影响力,与今天诡异的大环境相碰撞,也会有很多“时代注脚”般的画面出现。比如在poster区路过一个华为相关研究部门的展示,发现它的poster上,研究机构名字居然是后来用马克笔潦草地手写上去的。

作为一个此刻最火爆的行业,在其中的研究员们肯定不愿错过任何可能的职业机会。大家都很积极在connect,会场外附近的café、餐厅里,随处可见脖子上挂着参会证的人,三五成群讨论项目、交换名片,微信、LinkedIn加好友几乎成了标配。今年CVPR更像是一场技术和产业界紧密结合的大集市,信息流动速度很快,交流氛围也比想象中还要活跃很多。

穿梭在这些poster session和workshop的会议室,走廊里永远有人在打电话、聊项目、或者低头敲键盘。很多人干脆抱着电脑坐在走廊边的椅子上工作,会议室的门一开一合,大家行色匆匆地赶场子,生怕错过什么“爆款”讲座。

站在CVPR的会场,像是被一股看不见的力量拉到了某个舞台的中央。看着这么多人彼此争分夺秒,多少有点兴奋,也有点跟不上节奏。而这已经是常态,每个人都在FOMO中继续前进着。

(来源:新浪科技)



用户登录