豆包模型上新,字节继续卷性价比
这两天,字节又出手了,一口气放出一堆大货。
豆包大模型1.6、豆包·视频生成模型 Seedance 1.0 pro、豆包·语音播客模型,豆包·实时语音模型...全家桶式上新,看着热闹。
如果你只是扫一眼上述产品,可能觉得就是大厂又来了一波例行升级,没什么特别的。现在AI圈更新节奏这么快,新模型、版本号、榜单名次一大堆,确实不太容易提起兴趣。
但稍微往下看一看,会发现这次字节的做法不太一样。它并没有靠一两个参数或者演示视频来抢风头,而是开始把模型能力做成一整套“能直接跑起来”的应用,从文字、图像、视频,到语音、操作系统,全都串在了一起,而且不少是直接挂进了豆包APP、火山方舟这些已经在用的产品里。
我们就从两个核心产品说起。
Seedance 1.0 Pro 实测表现:
稳定、成型,但仍有边界
如果只看热度,这几个产品中Seedance应该是被关注度最高的了。
它刚上线就登上了第三方榜单Artificial Analysis的文生视频和图生视频两项第一,超过了可灵2.0和谷歌的Veo 3。榜单怎么评的我们可以再讨论,但至少说明在业内标准下,Seedance的生成效果已经达到了主流模型中的较好水平。
我们来看下这个模型的基本情况。
Seedance 1.0 Pro支持文字和图片输入,能生成10秒左右的1080p视频,支持2-3个镜头切换。它的主要特点,是强调镜头之间的连贯性和内容的稳定性。
这点在之前的视频生成模型里,确实是个短板。很多模型虽然能出图像,但内容连不起来,主角突然消失或者背景抖动都很常见。
Seedance解决这个问题的方式,是把每个镜头的内容用文字描述得更细,官方叫「精准描述模型」。它先生成一段描述,然后再根据这个描述训练视频。这种方式能让模型更好地知道该生成什么内容,也更容易控制住动作和细节。
Seedance能生成的视频风格也比较多样,可以支持航拍、第一人称、动画、水墨等多种风格。这点其实各家模型都有类似能力,只是Seedance在这方面的完成度和一致性更高一些。
生成速度方面,5秒的1080p视频只需大约40秒,这个速度属于目前行业中等偏上的水平。
来看一下我们实测的成果(每个维度我们都测试了多个case,篇幅限制只展示其中的一个):
镜头语言
prompt:夜晚的加油站,一个男人戴上头盔骑上摩托车,发动,驶出油站,镜头跟拍他的背影穿过街道,途中掠过霓虹招牌和迎面驶来的车辆。
这段主要是测试Seedance的快速运动+连续镜头能力,看它有没有剪辑感,能不能Hold住快节奏。
结果还是可以的。骑上摩托车时是一个典型的近景静态镜头,画面很干净。发动的瞬间光影有了变化,镜头在车启动后跟着往前推进。
Seedance 在镜头语言这块,能理解基本拍法;节奏上有控制,不会一顿快切、也不会死板地不动;镜头转场不是很生硬堆叠,但是它对复杂轨迹、非线性镜头的理解还不够稳定。
物理运动
prompt:雨中,一个穿风衣的男子奔跑穿过狭窄的街道,踩过水坑,雨水四溅,镜头从后侧跟拍。
看动作+环境干扰下的运动稳定性。结果比较稳。奔跑时人物姿势正常,地面确实有积水反光,踩到水坑的时候,地面有明显的水花溅起,镜头也给了点前摇的动态。雨水本身是做出来了,但稍微有些贴图感,也就是说是视觉效果,但没有明显的深度和飘动轨迹。
但整个奔跑过程中人物没崩,衣服也不是贴在身上的那种塑料感,而是有轻微飘动,这就已经说明Seedance在动态建模上的一致性控制能力比较强了。
人物表演
prompt:拳击手被击倒,努力挣扎着站起来,脸上满是汗水和倔强。
Seedance 1.0 Pro在情绪这一块没有做到极致,但比起过去同类模型,它已经迈出了一大步。表情控制能力还在进化中,细节依然有局限,比如嘴角和眼角的肌肉反应不够细腻,面部变化也不总是连续的。但它确实可以表现出“笑、忧虑、惊恐、紧张、坚定”这些基础情绪,而且不是固定脸谱,而是能随着上下文变化表现方式。
这次模型发布之后,Seedance已经接入了即梦(视频3.0 Pro)和豆包APP(底部的「照片动起来」),用户可以直接使用,也可以通过火山引擎API接入自己的业务。在价格上也比较低,每千tokens只需1分5,相当于每条5秒视频大概3.67元。在大批量视频需求下,这个成本属于比较可控的范围。
不过,Seedance目前仍然有一些限制。比如生成时长基本控制在10秒以内,镜头切换虽然支持了2-3个,但还没看到更复杂脚本的能力。生成也不是很稳定,想要得到满意的视频,无法摆脱多roll的命运。。
豆包1.6:
在多模态和操作上迈了一步
再来看豆包1.6,这是这次发布中更偏向通用模型的更新。它主要更新了三个版本:主力版(doubao-seed-1.6)、深度思考版(doubao-seed-1.6-thinking)和极速版(doubao-seed-1.6-flash)。豆包1.6整体能力进入第一梯队,在多项权威评测中得分提升明显,尤其是数学和推理相关任务。
具体来看,这一代模型加强了边想边搜和DeepResearch能力。现在你可以从火山引擎的AI体验中心试用。
用户可以直接请求它完成某些复杂任务,模型可以拆分任务、搜索资料、提炼内容,最后生成报告。这类功能我们在GPT-4和Claude里也能看到,不过豆包的方式更适合国内用户,点开即用,不需要熟悉复杂操作流程。
豆包1.6最强的还是多模态的实用能力。不是说能识图、能看视频就算多模态,而是把这些能力落到具体场景里。
这类任务不只依赖语言生成,而是能把图像、动作、提示词之间的信息整合起来,而豆包1.6确实在这个方向上做了一些实用尝试。
另一个值得一提的点是操作能力。AgentKit现在支持图形界面操作,可以打开网页、填写表单、浏览图片、下单预定。
比如输入“打开豆瓣电影,找今天在北京正在上映的电影,选择一部评分最高的,打开购票页面并截图停留。”它会依次打开网站、查找电影、筛选条件,最后再确认下单。这种功能的完成度已经不低,适合做一些流程重复、逻辑明确的轻任务。
价格方面,豆包1.6也重新定了策略。现在所有任务都采用统一定价模型,不管是文字生成还是图像分析,价格按输入长度划分,最常见的0-32K区间是输入0.8元/百万tokens,输出8元/百万tokens。和豆包1.5比起来,综合成本降低了大约63%。简单说,价格更接近豆包1.0,但能力是它的多倍。
OpenAI 卷能力,字节在卷什么?
这次更新背后,其实是字节模型策略的一种延续。它并没有在单一模型参数上卷得特别凶,而是强调组合能力和产品落地。
在To C端,豆包已经在做APP化,用“聊天+工具”的形态把模型包装起来;而在To B端,它依托火山引擎提供一整套AI服务,从基础模型API到完整解决方案。字节大模型的更新节奏不是盲目提速,而是配合业务工具一起同步走,比如最近更新的PromptPilot(提示词调优工具)、AgentKit(智能体开发平台)、多模态工作台、甚至是视频生成场景的Seedance,都和模型不是割裂的,而是集成式设计。
这和OpenAI、百度的路线相比,是有差异的。OpenAI继续把重点放在通用性极强的超级模型上,比如GPT-4o就把语音、图像、文字合成成一个统一的输入输出逻辑,目标是成为人类界面;百度虽然也做了很多产业链整合,但仍保留较多平台化概念,部分场景需要开发者二次拼装。
字节已经不是在卷模不模型的事情了,而是在卷能不能用起来的事情。
在这点上,它有点类似微软Copilot那一套逻辑,但又有自己的中国式打法。微软的优势是Office生态绑定企业,而字节的打法是基于内容+工具的双生态:一边用内容业务抖音等检验模型生成能力,另一边用火山引擎输出服务,把能力变成服务,最终变成一个系统级产品。
而且,从内部资源分配来看,字节的策略也很清晰:模型团队不单打独斗,很多模块直接协同产品线出需求,比如语音播客、视频生成、搜索推荐,这样模型迭代就不是闭门造车,而是从一开始就和实际场景挂钩。
大厂AI模型开始加速奔跑
聊到这里,其实绕不开的一个问题就是:现在这些大厂在AI这件事上,到底卷到什么程度了?
从阿里、腾讯到字节,确实都在提速,而且每家的方向有点不一样。
阿里的重心放在模型规模和通用能力,比如Qwen家族主打大上下文和工具链,目标是拉齐OpenAI那一套能力,尤其强调开源这一点
腾讯更多强调业务融合,Agent部署做得早,重点是To B场景,比如政务、企业服务等,推出了元器这种产品
而字节这边,很明显是以内容和多模态作为核心阵地,从豆包模型、Seedance视频、再到语音播客,都是围绕内容生成和产品应用来做的。
它们走的路线不太一样,但节奏都快。你会发现,这一年里,模型迭代不再是每半年一次,而是每两三个月就来一波。有的是版本更新,有的是新产品挂钩。但共同点就是,大家都已经不是在比有没有,而是在比用得起、用得上、用得快。
而且有个趋势也挺明确的:AI已经不是实验室里跑分的东西了。你发布一个模型,别人不再只关心你的推理速度和BLEU分,而是问一句——能不能挂到网页上?能不能在手机里跑?价格怎么样?是不是能直接接到现有系统里?
从这个角度看,字节这波模型更新虽然没有太多行业第一的技术噱头,但确实做得比较扎实。不管是Seedance的视频质量,还是豆包1.6的多模态能力,起码给到了一些可以拿去用的东西。对于开发者也好,中小企业也好,现在更在意的是这些东西能不能用、成本怎么样、部署复杂不复杂,而不是你参数多大。
所以到头来,大厂在AI这场竞争里,其实比的不是谁先造出最强的大模型,而是谁先把模型做成产品,谁先让用户真正用起来,谁能在不增加使用门槛的前提下,撑住规模和成本。
现在这个阶段,大家都还在跑,但已经能看出几个不同方向的势能了。接下来要看的,也许不是谁先出GPT-5级别的模型,而是谁能真正把AI塞进每一个具体应用场景里,让它像水电网那样成为基础设施。谁做得越快、越稳,就越可能在这场AI基础设施竞赛里,走得更远。
(来源:新浪科技)