Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

2026年05月20日,05时15分43秒 科技新知 阅读 4 views 次

不出所料,之前爆料的 Gemini Omni 正式发布了。

不过和当时大家预想的视频模型不同,Google 定义的 Gemini Omni 是一个能接受任意输入,生成任意输出的模型,视频只是当前的一部分。

Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

DeepMind CEO Demis Hassabis 在发布会现场,给出了多个 Gemini Omni 的演示案例。它上传了一张自己的照片,Omni 可以快速地修改人物所处的现实环境,轻松调节不同的风格。

画一个简单的圆圈,Omni 可以生成一个黑洞,一场傍晚的漫步,Omni 会渲染不同风格的环境;任何素材通过 Omni 都可以成为构建全新现实的画布。

Gemini Omni 的核心能力在于把文字、视频、图像、交互仿真整合进同一个生成框架。

具体来说,Omni 结合了 Google 目前最先进的几款生成式媒体模型,包括图像模型 Nano Banana、视频生成模型 Veo,以及世界模型 Genie。

我们可以输入「制作一段蛋白质折叠的动画解说」,它会直接产出带有 α 螺旋、β 折叠结构演示的教学视频,而不只是文字描述。

Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

提示词:claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate

有网友也立马用 Omni 和 Seedance 2.0 进行了更详细的对比,比较实际生成的质量、动态效果和一致性。

视频来源:X@TopviewAIhq

整体看下来,Seedance 2.0 的表现还是相当稳定,Omni 则是在某些特定的场景表现要比 Seedance 更强。

根据官方博客的介绍,Omni 的能力集中在视频编辑和物理模拟上。

动动嘴就能剪视频,AI 视频的「可控时刻」

除了用来制作教学视频,视频编辑是 Omni 的另一个主打场景。

Omni 支持上传自拍或任意素材,用自然语言,像和人类剪辑师聊天一样,对视频进行多轮修改,调整风格、添加元素。这套交互逻辑也和此前 Nana Banana 的图片编辑的思路一脉相承。

在官方的演示中,这种能力显得有些特立独行。

拍了一段手摸镜子的视频,只需告诉 Omni:「当人触摸镜子时,让镜子像液体一样泛起美丽的涟漪,人的手臂变成反光材质。」

Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

奇迹就真的发生了。视频没有被完全重绘,人物动作得以保留,但镜子的物理状态和手臂的材质被精准替换。

更值得一提的是它的「多轮对话能力」,每一次新指令都会基于前一次结果继续生成。

Gemini Omni 会尽量保持人物、环境、物理效果和场景上下文的一致性。

懂像素,更懂这个世界的物理法则

物理模拟则是 Gemini Omni 技术含量最高的部分。Google 称 Omni 在模拟动能、重力等现象时有了「质的飞跃」。更逼真的视频、图像以及交互式仿真内容,现在都能通过 Gemini Omni 生成。

当要求它生成「一条在连锁反应轨道上快速滚动的弹珠」时,Omni 展现出了对重力和动能的精确理解。

Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

更复杂的案例是一个「字母表物品视频」。当要求模型展示 26 个英文字母,每个字母对应一个不寻常物体,例如 C 对应水豚、D 对应迪斯科球、L 对应熔岩灯。

Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

提示词:Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.

Omni 能同时处理好字母和物体的对应关系、画面节奏、字幕形式、帧数要求、音乐风格和视频收尾方式,把语言、图像和意义联系起来,而不是只做表层的视觉匹配。

目前 Gemini Omni Flash 已同步上线所有 Google 产品,面向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,用户可以通过 Gemini app 和 Google Flow 使用。

在 Gemini 网页和应用端,我们可以选择「生成视频」体验 Omni 的能力。

Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

Gemini 提供了年轻时尚、蒙太奇、美漫、会说话的宠物、派对邀请函、月亮、变身表情包、涂鸦特效、像素冒险等 18 种预设风格,我们的 Pro 账户每天有 3 次生成机会。

我们随手输入了一段提示词,「一个男的汽车博主,穿着女装JK服装,梳着双马尾辫,在一台汽车面前」,使用预设的 80 年代 MV 风格,就得到了下面这段让人「欲罢不能」的视频。

Google 还提到 YouTube Shorts 和 YouTube Create App 用户也将从本周开始免费使用相关能力;未来几周会通过 API 向开发者和企业客户开放 Gemini Omni。

Seedance 2.0最强对手上线!这就是AI视频的“Nano Banana 时刻”

Omni 可以把图片、文字、视频和音频作为参考素材,并整合成一个连贯输出。

而为了打消公众对 AI 伪造的疑虑,Google 强调所有由 Omni 生成的视频都会嵌入肉眼不可见的 SynthID 数字水印,并且可以轻松验证来源。

针对真实人脸的使用,它还推出了可以克隆外貌和声音的 Avatar(数字分身)功能。

过去一年,谷歌用 Nano Banana 把 Gemini 的多模态能力推进到图像生成和编辑场景。

现在,Gemini Omni 开始把同一套思路带入视频领域,并试图打造视频生成领域的「Nano Banana 时刻」。

这对视频创作者的直接影响,是制作门槛继续下降:一段手机拍摄的视频、一张参考图、一段音乐,都可能成为可对话编辑的素材。

更大的变化则在于,当视频可以被一句话持续改写,内容生产的速度、真实感验证、版权边界和平台治理,也会被一起推到新的位置。

(来源:新浪科技)



用户登录