可灵与谷歌贴身肉搏

2025年06月03日,18时54分44秒 科技新知 阅读 7 views 次

可灵与谷歌贴身肉搏

AI视频生成赛道已经肉眼可见地“卷”出天际了。大厂背书的产品更新迭代的速度快到简直让人眼花缭乱。

作为“老铁厂”快手的可灵AI最大的对手,谷歌的AI视频生成产品Veo2本身就已经非常能打了,又在前段时间的I/O大会上再次正式上线Veo3版本。这才没过几天,可灵2.1版本也紧跟着推出。要知道,在短短一个月之前,快手才刚刚推出它们上一个大版本。

这回更新后的可灵2.1提供了结构化的产品选项。我们实测下来,标准版本以几乎相同的成本完全替代了可灵1.6,而高品质版本更是能与网友频频喊“效果炸裂”的可灵2.0大师版不相上下。

作为目前少数能正面硬刚谷歌的顶级玩家,可灵自诞生起就自带光环。可以说,这回性价比提升后的可灵AI,正在展现给我们一场顶级玩家间的贴身肉搏。

“直面AI”在可灵上也特意充值了一大笔灵感值,用 9 个一手测试带你看一看可灵2.1都在哪些方面有了提升,又有哪些不足。

01

可灵2.1价格更亲民,性能全面超越旧版

在实际评测可灵2.1前,我们先看看在可灵的价格体系下,每一条视频生成的价格有多高:可灵大师版的一条5秒视频价格就是10元,10秒视频一条就是20元。

对于用户来讲,每一条视频的成本并不低,所以性价比的需求更为强烈。

可灵与谷歌贴身肉搏

我们整理了下可灵AI更新后各个版本的用户价格,目前可灵2.1提供三种模式:

1. 标准模式

2. 高品质模式

3. 大师模式

可灵与谷歌贴身肉搏

现在的可灵AI已经有了结构化的产品价格体系:

可灵2.1标准模式的5秒和10视频生成所需的价格几乎与可灵1.6的高品质模式相当。

在可灵2.1高品质模式下生成的综合视频效果在一定程度上能够与可灵2.0大师版相媲美。

可灵2.1大师版的定价与旧版本一致。

可以说,2.1版本下的结构化产品价格已经为用户提供了丰富的选择。如果从性价比的角度上来看,它已经能够完全取代旧版本了。

下面,我们通过一系列实测来看看可灵2.1的各模式与旧版本的表现对比。

(1)可灵2.1人物动态效果极佳,一致性很强:

目前可灵2.1的标准模式和高品质模式无法文生视频,大师模式则没有此限制。

我们先来看看2.1高品质模式与前几个“满血版本”的对比。

在实际测试中,我们发现可灵2.1在人物动态效果上的表现极佳,领先了旧版本一定的差距,整体画面都保留了原图的高一致性。

比如,我们先用一张背后顶着光轮的女子坐姿弹琴的AI图片玩了下。这张附带人物并具有大量光效的图片很适合用来测试可灵AI各个版本的人物动态效果:

可灵与谷歌贴身肉搏

提示词:

光环旋转,光屑散落,风吹动沙子、头发和衣物,女子在弹动乐器,镜头拉远。

可灵1.6高品质:

可灵1.6高品质模式下的整体效果其实已经非常好了,画面真实,光屑的粒子效果明显。但是有个很突出的缺陷:可灵1.6的语义响应能力是真的不高,女子身后的光环不仅没有旋转,沙子的舞动效果也没有。

可灵与谷歌贴身肉搏

可灵2.0大师版:

可灵2.0大师模式相比1.6有了很明显的提升,比如光轮外环的旋转和风吹沙子的表现都更生动自然。但是,细致入微的我发现:视频里虽然风在吹动沙子,拂过衣物时,衣角却没有变化:

可灵与谷歌贴身肉搏

可灵2.1高品质:

可灵2.1高品质模式在人物效果上的表现,确实令我有些惊讶。光轮快速旋转的同时,光屑的粒子效果一致性很高,女子左右角的衣服也跟着舞动,画面几乎不存在像素扭曲、不自然边缘等明显的生成瑕疵:

可灵与谷歌贴身肉搏

可灵2.1在处理复杂光影和细微动作时的稳定性比较高,很少出现变形或失真的问题。

(2)多人物场景下,可灵2.1几乎拉开了代差:

当视频生成画面里涉及多个人物时,可灵2.1就与之前的版本拉开了十分明显的差距。

比如,我给了它一段提示词:

在一座云雾缭绕的高山之巅,两名武侠高手展开激烈对决。一人身穿白色长袍,手持长剑,剑光如虹;另一人身着黑色斗篷,使用双刀,招式迅猛。背景是连绵的青翠山脉,山巅的巨石被剑气劈裂,碎石飞溅。镜头快速切换,展现近身格斗的细节,随后拉远,俯瞰云海中的战斗场景。画面风格:写实、武侠电影风、动态运镜

可灵1.6高品质:

很明显,可灵1.6高品质模式下,涉及多个人物和景色时,在人物细节、动作协调、场景融合以及动态运镜上的表现就显得非常差了。画面的AI感很重,两位侠客的刀剑都出现了剧烈的形变。

可灵与谷歌贴身肉搏

可灵2.0大师:

相比于1.6高品质模式,2.0大师的视觉效果好了一点,但好的不多。当摄像机镜头拉开后,人物的形变还是非常明显,看起来完全不像在真的打架。武打动作虽然有一定连贯性,但招式之间的衔接不够自然:

可灵与谷歌贴身肉搏

可灵2.1大师:

可灵2.1大师的进步很明显,人物形象鲜明,细节丰富,脸部表情真实生动,武器未出现形变。但是,战斗真实感仍然说不上太高,对决的动态与节奏感还是有些不足:

可灵与谷歌贴身肉搏

(3)非人物场景下,各种模式间的差距并不明显:

可灵2.1在多人物场景下的表现确实很好,尤其是在动作协调、表情细节和群体交互的真实感上,相较2.0和1.6有很大的提升。但是,在非人物场景中,可灵2.1与前代模型的差异并不那么明显,尤其是在光效处理、环境动态和画面稳定性的表现上。

比如,下面这张在霓虹闪烁的摩天大楼间的飞行器的场景:

可灵与谷歌贴身肉搏

提示词:

从高空俯瞰这座城市,飞行器在霓虹闪烁的摩天大楼中快速穿梭,镜头跟随

可灵1.6高品质:

可灵1.6高品质模式下,画面的视觉效果和一致性都比较好,但是有一点:画面里并没有出现飞行器快速穿梭,镜头跟随的场景:

可灵与谷歌贴身肉搏

可灵2.0大师版:

可灵2.0大师版翻车了,几架飞行器在霓虹闪烁的摩天大楼中直接融合成了一块:

可灵与谷歌贴身肉搏

可灵2.1标准:

可灵2.1标准模式下的表现比较好,与提示词的一致性很高,画面中完全出现了提示词中的各种要素。但是,单从视觉色彩上来看,2.1标准模式并没有与1.6高品质有太大差距:

可灵与谷歌贴身肉搏

可灵2.1高品质:

可灵2.1高品质的视觉呈现感觉并没有与标准模式以及1.6有太大区别,反而摄像机跟随显起来比较怪:

可灵与谷歌贴身肉搏

02

可灵 vs Veo2/3

谷歌的Veo2在AI视频生成赛道里一直都是可灵AI系列的最大对手之一。自从Veo2推出以来,由于画面细节、动态流畅性和内容创意方面表现非常突出,谷歌在这一领域成了顶级玩家。这回上线的Veo3的真实性又上了一个大台阶。

下面我们就用一系列实测案例,来看看可灵2.1的大师版与Veo2/3间的差距有没有被弥补上,或者说弥补上多少了。

(1)动漫少女滑冰

X平台的一位博主 ShidarezakuraSa 实际测试了Veo2/3两个版本下动漫少女滑冰的视频效果,我们也同样用可灵2.1大师跑了下测试。

Veo2:

Veo2的视觉效果还是不错的,整体画面一致性比较高,没有出现崩坏的现象。但是,动漫少女的身体并没有呈现出任何物理效果的变化;镜头的移动跟随也非常一般:

可灵与谷歌贴身肉搏

Veo3:

Veo3相对于旧版本的升级非常大,动作捕捉、物理模拟和动态视角的变化都非常棒,真实度上升了不止一个Level:

可灵与谷歌贴身肉搏

可灵2.1大师:

可灵2.1大师呈现的效果相比于Veo3还是有一定差距的,画面出现了很多形变。同时,我也注意到动漫少女身上的物理模拟效果非常真实,可灵2.1在人物运动状态方面的塑造上确实非常强:

可灵与谷歌贴身肉搏

(2)比格犬与人类下棋

另有一位博主drjmetz用一段提示词测试了下Veo2/3的视觉效果:

一只比格犬幼犬在公园的游戏中与人类下棋

在这个场景下,可灵2.1的表现我觉得甚至要比Veo3还要强。

Veo2:

Veo2模型下,狗狗的皮毛纹理并不清晰,有非常重的AI感。画面中的两位角色在触碰国际象棋棋子时的动态模拟也比较差:

可灵与谷歌贴身肉搏

Veo3:

Veo3的表现就提升了非常多,人物脸部的真实感很强。同样地,棋子在被接触时仍然会发生形变,这就是目前AI视频生成模型还无法解决的难题:

可灵与谷歌贴身肉搏

可灵2.1大师:

可灵2.1大师模式下的狗狗的皮毛真实感很高,在处理复杂纹理时表现优异,在细节渲染和光影处理上更接近真实。但是,2.1并没有展现下棋的过程,避开了复杂的物理模拟,这也体现了2.1在语义响应上仍有上升空间:

可灵与谷歌贴身肉搏

(3)一只长颈鹿在纽约骑自行车

在动态视觉效果方面,可灵2.1与Veo3的差距还是比较明显的。比如下面这个「一只长颈鹿在纽约骑电动自行车」的case。

X博主nmatares提供了Veo3模型的测试结果,我们也同样用可灵2.1大师跑了一遍。

提示词:

一只长颈鹿在纽约疯狂骑电动车,画面充满动感,镜头快速切换,展现长颈鹿灵巧地避开行人和车辆

Veo3:

Veo3下,画面主体的运用效果一致性比较高,整体效果非常流畅,动态效果上展现了极高的水准。在画面主体的运动表现上,Veo3对长颈鹿骑行姿态的刻画很自然,动感氛围也比较匹配:

可灵与谷歌贴身肉搏

可灵2.1大师:

相比之下,同样的提示词在可灵2.1大师版下的表现则显得差了一些。在动态效果的处理上,可灵2.1的画面流畅度明显不足,长颈鹿的骑行动作显得有些怪异,街边人物的形变很大:

可灵与谷歌贴身肉搏

带大家欣赏可灵2.1高品质模式下更多的Case

我们还用剩下的灵感值多跑了几个能很直观展现可灵2.1高品质的视频case,让大家看个够。

(1)童话风格女孩

提示词:

在一个童话风格的小镇,鹅卵石街道上挂满彩灯,居民穿着中世纪风格的华丽服装,参加盛大的节日庆典。孩子们手持气球,围着喷泉嬉戏;乐队演奏欢快的弦乐,烟花在夜空中绽放。镜头从小镇广场的热闹场景推进,聚焦于一位小女孩点亮漂浮灯笼,灯笼缓缓升空,与星空融为一体。画面风格:温馨、梦幻、色彩丰富,动画电影风格。

可灵与谷歌贴身肉搏

(2)魔法师

提示词:

在一片古老的魔法森林中,参天巨树上缠绕着发光的藤蔓,地面覆盖着荧光蘑菇。精灵祭司站在石制祭坛前,手持水晶法杖,召唤出漂浮的蓝色魔法符文。周围的空气中闪烁着微光粒子,远处的独角兽在溪流边饮水。镜头环绕祭坛,展现仪式的高潮:一束光柱从天而降,点亮整个森林。画面风格:梦幻、温暖色调、轻雾弥漫,电影感,流畅运镜。

可灵与谷歌贴身肉搏

(3)机械生物

提示词:

在一片红色沙漠的外星球上,巨大的机械生物在沙丘间缓慢移动,它们的身体由金属和有机物混合构成,散发着幽幽蓝光。天空布满双月,远处的火山喷发出紫色烟雾。一支探险队驾驶悬浮越野车靠近,扬起漫天沙尘。镜头从地面视角逐渐拉高,展现机械生物的全貌和壮丽的异星地貌。画面风格:科幻、荒凉、超现实,史诗感。

03

本土诞生的卷王

综合测试下来,我们发现可灵2.1在动态人物的一致性方面的提升非常大,尤其是多人物场景下的真实细节还原。可以说,可灵2.1已经能够凭借性价比彻底替换掉前代版本。但是,在极复杂场景、动态运镜、物理模拟等方面,可灵2.1距离谷歌的Veo3仍有一段追赶空间。

从“老铁厂”快手如此密集的迭代节奏不难看出,AI视频生成的进化已进入白热化阶段。同时,可灵的商业化之路,已经被市场实实在在地验证了:从2024年6月发布以来,可灵AI已经快速迭代了20多个版本,全球用户规模超过2000万。今年1季度,可灵AI实现营业收入超过1.5亿元。

我们已经看到了包括可灵2.0、2.1等各个版本的诞生,快手作为可灵的母公司,正全面拥抱AI技术,用AI当作全新的商业引擎。

可灵这款产品从诞生之日起,到走通商业化只用了短短半年时间。现在,可灵产品迭代速度明显加快,结构化的产品选项不断清晰。我们可以预见的是,“老铁厂”和极大规模的用户群体加持下的可灵AI,将会是谷歌Veo 3最强劲且最不能忽视的本土对手之一。

(来源:新浪科技)

标签:


用户登录