字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

2026年04月17日,12时11分24秒 科技新知 阅读 3 views 次

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

现象级AI视频技术、字节Seedance 2.0在arXiv发论文了。

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

晒了26页的Benchmark,和贡献者名单。

170位团队成员全公开,署名和尊重都拉满了,不过嘛这就不怕……嘛?

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

论文公布的时间节点,正赶上Seedance 2.0通过Byteplus平台铺向全球。

100多个国家的企业客户可以通过预付费API直接调用。支持文字、图片、视频、音频多模态输入,生成4到15秒MP4视频,最高720p。

但这个“全球”列表里,唯独没有美国

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

26页只写了两个字:能打

首先看标题,说成大白话就是“让AI视频生成能搞定现实世界里的各种复杂场景”。

为了做到这一点,Seedance解决了过去生成式视频工具的一个瓶颈:

通常依靠单文本输入,在尝试引用真实素材(品牌图片、配音、先前的视频片段)时难以保持一致性,并且需要大量的反复试验才能制作出可用的作品。

对于创作者而言,这意味着迭代速度慢、输出结果不一致,以及工作流程无法满足实际制作需求。

突破方法在于Seedance是原生统一的模型,能够同时生成视频和音频 ——并且可以在一个系统中接收文本、图像、音频和视频作为输入。

统一理解4种指令,支持文字 + 图片 + 视频 + 音频一起输入,能同时理解并融合

人物走路、跑步、打架、跳舞更自然、不扭曲、符合物理规律,多人互动也不乱。

音画天生同步,自带双耳立体声音频,说话、唱歌、脚步声、BGM和画面严丝合缝,口型对得准。

会“当导演”,写一段剧情,它自动分镜头、自动运镜、自动剪辑节奏

可以改指定人物、动作、场景;也能在现有视频后面无缝续拍

评测部分覆盖VBench等多个主流基准,质量、运动、语义一致性等维度全面量化对比。

Seedance 2.0直接站上了第一梯队,多项指标大幅领先同时期对手。

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

最后两页是完整作者列表,共170人

与Seedance 1.5 Pro时期的197人相比,有89人离开,62人加入。

不到半年时间团队换血近半。

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

其中稳定不变的核心人物可以找到吴永辉,现任字节跳动Seed团队基础研究负责人,是Seedance系列视频生成模型的最高技术决策者,直接向公司CEO梁汝波汇报。

曾妍,现任Seedance 2.0预训练负责人,是视频生成模型核心技术路线的关键执行者。工作地点位于美国帕洛阿尔托(Palo Alto)。

字节Seedance 2.0发论文了,171人署名,吴永辉曾妍在列

One More Thing

有消息称字节花近亿元挖来了前DeepSeek研究员郭达雅。

抖音副总裁李亮亲自下场辟谣:不实,Seed团队薪资体系统一,近期没有招聘到近亿元年薪的员工。

辟谣归辟谣,但这段话还披露了Seed的完整薪资结构:现金+字节期权+豆包期权,四年全部归属。

到这,本来可以结束了。

但李亮又加了一句话。

Seed员工的字节和豆包期权未来收益根据期权价格有波动,假如业务发展得很好,不排除有些Seed技术人员四年后收益会达到数亿元。

这简直是借辟谣在招人了。

“数亿”两个字比任何招聘广告都有杀伤力。

论文地址:

https://arxiv.org/abs/2604.14148

参考链接:

[1]https://www.byteplus.com/en/activity/seedance2-0

[2]https://weibo.com/7965906915/QB6lMCaGo

(来源:新浪科技)

标签:


用户登录