火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

2025年05月14日,17时07分40秒 科技新知 阅读 9 views 次

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

作者 | ZeR0

编辑 | 漠影

智东西5月14日报道,在5月13日的火山引擎AI创新巡展·上海站活动上,火山引擎晒出大模型全景图,发布豆包·视频生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型,升级豆包·音乐模型。同时,Data Agent正式亮相,国内首款AI原生IDE产品Trae接入豆包深度思考模型并升级多个重点功能。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

目前,火山方舟已覆盖语言、深度思考、视觉理解、视觉、语音、GUI Agent等多类模型。

火山引擎副总裁张鑫在会上谈道,模型、算力、数据、安全构成了AI时代的新基建,火山引擎同时对外提供这“四要素”:

模型方面,豆包大模型支撑了50多个内部真实场景、30多个行业外部企业共创,截至4月份,日均tokens调用量超过12.7万亿。

算力方面,火山引擎AI云原生提供了强有力的系统承载力,包括充沛算力、推理层优化、系统调度能力的乘积。

数据方面,数据飞轮2.0和Data Agent,让用户可以基于动态的多模态数据湖,以智能重塑数据关系。

安全方面,大模型安全方案提供PCC私密云计算平台,可解决端云协同计算过程中的数据泄露问题,并通过大模型防火墙消除一系列攻击隐患。

一、视频生成模型:效果好、生成快、更便宜

新发布的豆包视频生成模型Seedance 1.0 lite,支持文生视频、图生视频,视频生成时长支持5s、10s,分辨率提供480P、720P。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

企业用户可在火山方舟平台使用该模型API,个人用户也可在豆包App、即梦体验。

作为豆包视频生成模型系列的小参数量版本,Seedance 1.0 lite模型实现了两大突破:影视级的视频生成质量、视频生成速度大幅提升,兼顾效果、速度、性价比。

(1)更精准的指令遵循:通过强大的语义理解,可精细控制人物外貌气质、衣着风格、表情动作等,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面具有优势。

(2)更丰富的影视级运镜:支持360度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言,具备细腻高清的基础画质和影视级美感。

(3)更合理的运动交互:分析动作时序与空间关系,提升人物、物体间自然流畅的交互动作,运动轨迹、受力反馈更加契合现实规律。

Seedance 1.0 lite模型可广泛应用于电商广告、娱乐特效、影视创作、动态壁纸等场景。例如在电商领域,该模型可帮助商家快速生成高质量的营销视频素材,精准匹配产品展示、活动推广等场景,降低制作成本与周期。

二、豆包1.5·视觉深度思考模型:在60项评测中取得38项第一

新发布的豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),激活参数仅20B,但具备强大的多模态理解和推理能力,在60个公开评测基准中有38个取得SOTA表现,在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。该模型已在火山方舟上线。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

在视频理解方面,豆包1.5·视觉深度思考模型支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。

同时,该模型新增视频深度思考能力,学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。例如,在复杂的图形推理题中,模型提出假设,进行推理检验,当发现和假设不一样时,还能进行不断反思,提出新的猜测,直到得出正确答案。

豆包1.5·视觉深度思考模型还新增了GUI Agent能力,基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务,例如可对新开发的App功能进行自动化检测。该功能已应用于字节跳动多款App产品的开发测试中。

去年,火山引擎推出了豆包·音乐模型。基于该模型,用户仅通过一张图、一句话,就能创作10多种不同风格的高品质音乐。此次大会上,豆包·音乐模型升级,不仅支持英文歌曲创作,还可以通过理解视频,自动适配纯音乐BGM。

豆包·音乐模型已全量上线,个人和企业用户可在海绵音乐、火山引擎官网体验。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

三、火山方舟:免登录,低价推理,3分钟搞定DeepSeek满血版部署

火山引擎旗下的一站式大模型服务平台火山方舟,提供了语言、视觉、语音等模型的精调、推理、评测等功能与服务,通过丰富的插件生态和安全可信的方案,让企业及开发者的AI应用更易落地。

开发者可在免登录的情况下,极速体验模型能力。对于要长期使用的实名制用户,火山方舟简化了模型接入链路,无需多页面跳转,2分钟即可完成模型接入。在安心推理体验模式下,火山方舟不会主动消耗付费资源,并支持按模型分配tokens。

火山方舟推出了两种离线批量推理方案。其一,从存储中批量读取数据,以进行离线推理;其二,直接调用类似于在线聊天的模型接口,对批量请求的动态负载实施精准控制,几分钟便可完成开发适配。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

针对每个用户,火山方舟提供每日不少于100亿个token的批量推理额度,并提供更低价格。相比在线推理,批量推理的价格降低了50%;如果使用前缀缓存,命中部分价格再降40%;存储费用为0元。

火山方舟还提供超低延迟的小时级推理保障包。用户可依据业务实际流量曲线来精细地规划所需资源,无需为业务低谷期付费,从而节约成本节约。例如,Deepseek-R1的推理保障包能稳定提供20ms的每token延迟,豆包1.5 Pro的推理保障包可将推理延迟降低到15ms。

极致的性能是充沛算力、深度技术优化、系统调度能力的乘积。火山方舟用充沛的资源和先进的系统工程能力,提供高并发算力保障和极致的服务体验。在多方测评中,火山方舟Deepseek-R1服务始终保持最低的延迟表现。

这得益于火山方舟多年来在算子层、框架层和调度层开展的深度优化工作:通过Prefill Decode分离式部署(即PD分离)、存算分离、kernel优化、秒速扩容等技术,在异构硬件协同优化与通信开销中实现极致性能,确保方舟推理既快速又稳定。

有模型定制、部署及推理需求的企业客户,可以使用火山引擎机器学习平台。该平台与方舟共享相同的大模型推理引擎,具备业内领先的生产级可用的PD分离、分布式KV Cache能力。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

火山方舟机器学习平台突破了传统部署的复杂流程,通过预置模型和镜像以及PD分离部署方式,仅需1- 3分钟即可一键启动预置模型服务,完成DeepSeek推理集群的部署。

凭借高性能文本推理框架xLLM以及分布式系统优化,机器学习平台将TPOT(吐字间隔)优化至20ms。 在使用两台8卡H20的情况下,xLLM推理性能在DeepSeek-R1 671B模型上,相较于开源SGLang方案实现了4.5倍的吞吐量(tokens/s)提升,同时每token延迟降低至1/3。

基于自研DiT推理框架veFuser,该平台可在15秒内生成一个5秒480P的视频,相比行业平均水平,推理效率提升4.5倍。

火山方舟还提供全周期安全可信方案,通过链路全加密、数据高保密、环境强隔离、操作可审计四个安全模块,确保会话无痕。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

火山方舟应用实验室为客户和开发者提供完整的场景化解决方案和完整的源代码:面向应用插件、多模态、终端等场景,提供超过20个开源应用;面向具有专业开发能力的企业开发者,提供大模型应用开发所需的工具集和流程集,支持快速开发和定制匹配业务场景的大模型相关应用;支持超过60个大模型产品,用户可轻松将方舟大模型集成到主流软件。

火山方舟应用实验室广场还有非常多有趣的应用,比如帮助网店运营的智能导购、豆包模型与DeepSeek协作的长期记忆方案、整合多模态和硬件能力的实时对话AI硬件、提供标准化解题链路的教师分身等。

四、Data Agent助攻企业挖掘数据资产,新版Trae接入豆包深度思考模型

Data Agent是火山引擎推出的企业数据全场景智能体。它就像一个企业级AI数字专家,具备主动思考、洞察、分析、行动能力,可深入帮助企业挖掘数据资产价值,功能覆盖数据分析、智能营销等关键领域。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

在数据分析上,Data Agent能融合企业内结构化与非结构化数据,结合联网知识,精准理解业务需求,快速生成专业深度研究报告。

通过自动化制定分析方案、追溯指标波动、运用自助分析工具及搭建预警系统,Data Agent实现数据处理全流程智能化,可将复杂报表生成的时间从2天缩短至30分钟,显著提升数据获取与决策效率。

在智能营销领域,Data Agent实现从策略制定到执行优化的全链路闭环管理,高效完成人群圈选与策略拆解,基于个性化引擎实现精准营销。

此外,其智能会话辅助与自动复盘优化功能,可不断提升转化率与客户满意度,动态迭代营销策略。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

打造高智商的智能体,不是一次性搭建的静态结果,而是数据、模型、工程、业务动态耦合的持续迭代过程。因此,智能体还需要持续的全生命周期管理。HiAgent发布的Agent Devops体系,打通了从开发、运营调优到用户使用的全链路。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

通过统一的AI交互入口,企业员工可以更好地使用更多的智能体。比如企业的管理员可登录HiAgent,选择要发布的智能体。发布后,员工可根据意图和需要,唤醒和使用不同的助手,如任务助手、差旅助手、报销助手、会议助手等。随着员工更多使用智能体,企业也能够积累越来越多的数据和用户的行为偏好,让AI越来越懂企业,越用越聪明。

最新版本的Agent Devops近期全面适配MCP协议,提供了更好的开放性,也集成了火山引擎安全防火墙,提供了更好的安全加固能力。此外,火山引擎还基于自身以及客户、合作伙伴共同沉淀的知识与实践,打造了一套HiAgent应用样板间,以帮助客户快速搭建好贴合业务属性的智能体。

为帮助开发者更便捷地利用AI提升开发效率,国内首款AI原生IDE产品Trae也带来多个重点功能升级,例如统一的AI对话面板(所有交互仅需一个对话框)、支持自定义@Agent(构建专属AI团队)、新增联网搜索 #Web和文档 #Doc 的上下文理解类型(AI执行需求更准确高效)、通过MCP让AI主动调用外部工具等。

目前,Trae已配置豆包1.5·深度思考模型(Doubao-1.5-thinking-pro),基于模型主动深度思考和20毫秒极低延迟,让代码生成的质量更好、效率更高。

Trae团队预测未来会有两个主要趋势:一是复杂度上,随着模型能力增强,AI编程会从复杂度较低的代码片段生成,往复杂度更高的软件生成、项目生成方向演进;二是交互逻辑上,AI编程会从原先在IDE等工具里嵌入AI方式,逐渐往AI使用各种工具来实现软件各种各样的开发需求。

后续,Trae将逐步开放智能体的一些底层能力,支持开发者做更深层次的自定义专属智能体,并将提供更好的人与AI协作机制,来激发人的创作,同时发挥AI的生产力。

五、豆包大模型产业落地加速,为游戏医药行业拓界增效

豆包大模型已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地,覆盖4亿终端设备、八成主流车企、70%系统重要性银行和数十家证券基金公司、近七成的C9顶级高校和100多家科研院所。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

在游戏行业,巨人网络正在借助大模型能力重塑游戏体验和玩法创新。通过火山方舟接入豆包大模型及DeepSeek,巨人网络今年3月在旗下《太空杀》中推出Al原生游戏玩法“内鬼挑战”,通过接入火山方舟DeepSeek-R1及豆包大模型的深度思考等能力,打造AI玩家,与真实玩家进行实时策略对抗,重新定义了社交推理游戏的智能边界。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

同时,《原始征途》也接入大模型能力打造AI智能NPC“小师妹”,在游戏策略指导、情感陪伴等方面提供更智能、更人性化的交互体验,显著提升了玩家粘性。

此外,借助火山引擎机器学习平台所提供的大模型训练及资源保障,巨人网络亦推进了自研视频生成大模型、游戏音效生成大模型的迭代优化。

在医疗行业,礼来制药搭建了专属AI应用开发平台,支撑从药物研发到疾病诊疗的全场景创新。

通过可视化的拖拉拽工作流编排,礼来制药搭建了HCP Chatbot、地区经理辅导报告等智能体,在学术沟通、销售培训、疾病教育等多个场景中形成应用,实现了企业AI资产的沉淀与持续化运营。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

六、全链路、全场景AI云原生推理套件,帮助企业加速AI转型与升级

随着DeepSeek热度高涨,火山引擎MaaS流量也迎来了新一轮增长。当前火山引擎MaaS服务所服务的Deepseek和豆包大模型,支持了每天峰值千卡级别的GPU弹性能力、500万初始TPM(每分钟token数)、超过3万的RPM(每分钟请求数),日均Tokens使用量达到12.7万亿。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

火山引擎AI云原生推理套件相关产品为这些能力提供了支持。

在第三方测评排行榜上,火山引擎DeepSeek服务在首token、推理速度、生成速度上均表现最优,在同样硬件资源上运行DeepSeek-R1满血版,相比开源SGLang,可将TPS吞吐提升5倍,GPU使用成本降低80%。

对于不同的模型,火山引擎提供了多样化的接入和使用方式,包括方舟MaaS平台、机器学习平台、AI云原生推理套件。

火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级

面向大模型推理的AI云原生推理套件ServingKit,能够帮助企业实现从模型部署、推理到运维的全链路提效。

在部署阶段,镜像下载和加载的加速服务,使得首次部署和扩容阶段能快速拉起业务进行业务发展。Onion镜像权重加速引擎可实现DeepSeek-R1满血版模型109秒下载、40秒缓存预热、13秒权重加载。

在推理阶段,通过GPU算子加速器、APIG AI网关、VKE编排调度、KVCache缓存服务等能力升级,来优化推理性能。其中算子优化后,R1满血版的TPS提升了2.4倍;智能路由可以TTFT降低60%;KVCache在长文本推理场景,KVCache命中率相比GPU Local提升了10倍。

在运维阶段,观测平台APM和VMP全面升级,支持推理业务无侵入式透明埋点,从资源层到推理业务层实现全链路、全场景的观测指标覆盖。

火山引擎与英特尔合作,通过“云实例+镜像”的方式,提供一个低门槛、高效率的大模型开发入场券,并将持续提升大模型部署效率、降低算力成本。

结语:从模型矩阵到智能体工具,推动AI应用落地普及

根据火山引擎副总裁张鑫的分享,企业应在AI落地过程中走好业务价值、模型基建、智能体应用三段旅程。业务价值可分阶段实现,首先是达成战略共识(-1→0),然后选择技术成熟度高、数据就绪度高、业务价值明显的场景进行场景验证(0→1),在此过程中逐渐构建自己的AI能力中心和沉淀企业知识库,为后续实现扩量复制(1→N)、价值重构(N→∞)打好基础。

在整段旅程中,企业要构建的核心竞争力,来源于结合AI做到极致的产品体验设计,沉淀企业独有的领域知识库甚至专业模型,打造面向AI的人才组织和文化。

技术落地的过程远不止引入一个大模型那么简单,而是包含多个不同维度,涉及模型选择、效果评估、数据知识工程、算力准备、开发平台搭建、模型接入、效果评估、模型基建的落地旅程、数据知识工程、算力准备、开发平台搭建、模型接入、效果调优、性能安全测试等环节。

火山引擎计划以更全面的模型矩阵、更丰富的智能体工具,帮助企业打通从业务到智能体的应用链路,进一步推动AI普及,希望与更多企业一起将AI科技落地的方式从以前的手工编写“Hello World”代码变成更轻松的对Agent Say “Hi”。

(来源:新浪科技)



用户登录