那个做出可灵的人,回阿里又造了一匹黑马
文 | 字母AI
AI视频这条赛道,最近有点冷,Seedance 2.0陷入版权争议,OpenAI关停Sora ,让这条赛道上空阴霾密布。
就在这个时候,阿里牵出来了一匹黑马。
2026年4月,HappyHorse-1.0冲上Artificial Analysis榜首,在文生视频和图生视频(无音频)两个赛道同时压过字节、快手等对手。
张迪在2025年11月回归阿里巴巴,接任淘天集团未来生活实验室负责人一职,并直接向阿里妈妈CTO郑波汇报工作。
也就是说,张迪从回归到闯出名堂,中间也就隔了5个月左右。
关键在于,HappyHorse和阿里的千问一样,开放了可商用的开源版本。
现在千问在阿里什么地位?它是阿里集团级的核心通用大模型底座、AI战略的绝对核心载体。阿里现如今的一切,都是在围绕千问进行布局。
所以HappyHorse对阿里的意义,可能也远不止是一个刷榜秀技术的模型那么简单。
不过在理解阿里的想法之前,我们应该先来聊聊,张迪是谁。
01 从阿里到快手再回阿里
张迪毕业于上海交通大学计算机专业,本硕连读,2010年毕业后加入阿里巴巴,长期负责阿里妈妈的大数据和机器学习工程架构。
阿里妈妈做的是广告、推荐、搜索和转化,背后是大规模数据、大规模分发和复杂工程系统。这些东西听起来没有大模型那么热闹,但它们正是后来中国互联网公司训练AI人才的地方。
很多真正能把模型做成产品的人,并不是纯粹从实验室里出来的。他们更早经历过搜索、推荐、广告、内容分发这些系统的历练。
这我随便举几个例子你就懂了。谷歌CEO桑达尔·皮查伊,他就是做搜索栏和Youtube内容推荐出身的,微软的CEO萨提亚·纳德拉,他在微软一开始开发的就是必应搜索引擎和微软广告体系。
因为这些系统每天都在处理海量用户行为,也要求模型能在真实业务里稳定运行。它不允许工程师只做一个好看的demo,它强迫你做出真正有用的东西出来,还必须在延迟、成本、效果、反馈之间反复取舍。
张迪在阿里的十年,大致就是在这样的环境里度过的。那时候外界还没有把所有事情都叫作大模型,但阿里内部早就有一套围绕数据、算法和工程化的训练场。
2020年,张迪离开阿里去了快手。
当时的短视频平台,已经从流量竞争进入技术竞争阶段。张迪在快手历任技术副总裁、大模型与多媒体技术团队负责人,后来主导了可灵大模型的底层架构研发和应用落地。
可灵对快手的意义是非常重大的。
可灵让快手从过去的 “内容分发平台”,升级为 “内容生产基础设施提供商”,构建了 “创意生成-视频制作-一键分发-流量变现-数据迭代” 的完整闭环
2025年4月,快手成立可灵AI事业部,并升级为公司一级部门,直接向 CEO 程一笑汇报,与短视频主业务平起平坐。
所以当他在2025年9月短暂加入B站,又在两个月后回到阿里时,这个动作就很难只看成一次普通的人才流动。
B站需要视频技术,阿里同样需要视频技术,只是阿里的需求更复杂。
快手做视频生成,无非就是分发。但阿里要是做视频生成,那背后牵连的环节就多了去了。有电商、广告、直播、云服务和海外商家。
前文提到,张迪2025年11月回归阿里后,出任淘天集团“未来生活实验室”负责人,职级P11。
如此安排下来,阿里味还是很浓的。它没有把视频模型简单放在一个纯研究部门里,其位置反而更靠近淘天这样一个交易现场。
换句话说,HappyHorse从构思开始,就是一个强调落地,和阿里现有生态绑定的产品。
五个月后,HappyHorse出现了。
这个速度确实快,阿里给了张迪一个新的业务场景和团队,他把视频模型这条路线再次打通。
他既不是从零开始进入AI视频,也不是单纯从外部空降到阿里。
他的职业路径像一条绕出去又绕回来的线。先在阿里学会大规模商业系统怎么运转,再去快手把视频生成做成产品,然后又回到阿里,把这套能力放进更大的商业机器里。
很多公司都在抢大模型人才,但真正稀缺的人,往往是能同时理解模型、业务和组织的人。
单纯会训练模型的人很多,单纯会讲战略的人也很多,难的是有人知道一个模型从技术路线开始,到架构设计,到训练推理,到产品出口,到最后被商家和用户用起来,中间每一步会在哪里卡住。
HappyHorse把张迪重新推到台前,也让阿里过去几年相对分散的AI叙事有了一个更具体的人物入口。
02 开源模型如何击败闭源巨头
HappyHorse真正引起关注的点,在于它赢得太突然了。
在视频生成这条赛道上,海外有Runway、Pika、Luma、Google的Veo,国内有字节的Seedance、快手的可灵。阿里排不上号。
所以当HappyHorse刚屠榜的时候,大家甚至更愿意相信说这是某创业公司开发的模型,也不愿意相信这是阿里的模型。
HappyHorse在文本转视频和图像转视频两个赛道都处在第一梯队,文本转视频Elo分数为1333,图像转视频Elo分数为1392。
Artificial Analysis的榜单本身会随用户盲测不断变化,后续页面分数也有更新,但是它确实在用户偏好测试中压过了一批更早出名的闭源模型。
这事其实挺反常的。通常来说,视频生成是最吃钱、吃数据、吃算力的方向之一。
闭源大厂可以把数据、模型细节、推理系统和产品体验藏在自己平台里,持续做内部迭代。
开源模型则要面对更多现实限制,它的参数要能公开,推理要能跑起来,社区要能复现,效果还要经得起横向比较。
所以在HappyHorse出现之前,开源视频模型大多数都是玩具,输出的视频不够稳定,人物还经常会出现漂移。
HappyHorse有150亿参数、40层统一自注意力Transformer架构,把文本、视频、音频三种模态的token放进同一个序列里联合建模。
这个路数和千问非常像,这也就解释了为什么张迪仅用5个月就把HappyHorse弄出来了,很可能是沿用千问留下来的高质量原生多模态训练方法。
像Sora这种非多模态原生的视频生成模型,经常会出现人物嘴在动,声音慢半拍的情况。并且有时候人物表情很丰富,但语气不对。人物还有可能在声音发出之前就行动了。
HappyHorse评分高的原因就在于,它通过原生多模态解决了这个问题。
HappyHorse原生支持英语、普通话、粤语、日语、韩语、德语、法语等多种语言的唇形同步,词错误率也被拿来和同类开源模型比较。
张迪为什么要这样做?我的理解是,如果阿里想让视频生这项技术进入广告、电商、短剧、教育和直播,就不能只靠画面漂亮。
它要能说话,要能配音,要让声音和画面同时成立。
另一个关键点是成本和速度。
HappyHorse在单张H100 GPU上生成5秒1080p视频约需38秒,并采用DMD-2蒸馏技术把去噪步骤压到8步。
这是视频生成商业化绕不开的一道坎。模型效果再好,如果生成一条短视频成本太高、等待太久,就很难进入商家日常工作流。
商家不会为每个商品等半天,也不会为几十个测试素材支付过高成本。
所以HappyHorse的意义不只是“能生成”,还在于它试图把生成速度和推理成本压到可用区间。
对开发者来说,开源意味着可以自托管、微调、接入自己的产品。对平台来说,开源也会带来更多社区反馈
一个闭源模型的进步主要依靠公司内部团队,一个开源模型会被开发者拿去做各种奇怪测试,问题暴露得快,改进方向也会变多。
Artificial Analysis的视频竞技场采用用户偏好投票,很多时候不只看某一个技术指标,更看用户在两段视频之间更喜欢哪一个。
当然,张迪还不能太骄傲,一次榜单登顶不等于永远领先。
竞争对手不会停在原地。HappyHorse现在赢下的只是一场公开测试,还不是整个战争。
HappyHorse如果只是一个能刷榜的模型,它的意义有限。可如果它能成为阿里云、淘天业务共同使用的视频生成底座,它就会变成一个入口。
所以说HappyHorse击败闭源巨头,最有意思的地方并不只是分数领先。真正值得关注的是,它让阿里找到了一种重新进入视频生成牌桌的方式。
它没有先做一个面向C端用户的APP,也没有只在内部做演示,而是直接拿开源模型接受全行业检验。
这场胜利未必会持续很久,但张迪让外界改变了对阿里在视频生成模型上的判断。
新的问题变成了,阿里准备把这项能力用到哪里?
03 HappyHorse对阿里的意义
HappyHorse最直接的落点,是电商。
过去大家谈AI视频,最容易想到影视、短剧、广告大片、创作者工具。诚然,这些都是实打实的大市场,不过它们离阿里的主业务还有一段距离。
阿里的优势不在于自己做一个视频社区,也不在于让普通用户每天打开一个AI视频APP消磨时间。阿里真正有优势的地方,是它手里有中国最密集的商品、商家、交易和广告系统。
这也是为什么很多人都在意说HappyHorse诞生于淘天集团的“未来生活实验室”。
淘天每天面对的是商家怎么卖货,商品怎么被看见,用户为什么点进来,又为什么下单。HappyHorse放在这里,大家自然就会想到它能不能提高商品内容生产效率,能不能提高转化,能不能帮平台多做生意?
对一个普通商家来说,视频内容一直是个麻烦事。
拍一条30秒的商品视频,你要找场景、找模特、打光、剪辑、配音。大品牌可以请团队,中小商家更多时候只能自己凑。
很多商品卖点并不复杂,问题在于没人把卖点拍出来。它们放在白底图里都很普通,一旦进入具体场景,用户才会意识到它能用来做什么。
前一阵在海外,太阳能喷泉泵这个产品卖爆了,它原本只是庭院小件,效果也就那么回事。但是被AI视频包装成鸟浴盆、鱼池和儿童浴缸里,酷炫的喷水玩具后,所有人都在疯抢。
AI没有改变商品本身,却改变了用户理解商品的方式。它把“功能说明”变成了“使用场景”。
这正好击中电商内容的痛点。
商品页里写满参数,用户未必有耐心看;主播讲半天,用户也未必相信。但一条十几秒的视频,如果能把场景讲清楚,转化效率可能会高很多。
更重要的是,AI视频可以批量生成。商家可以为同一个商品生成儿童版、家庭版、节日版、户外版,也可以为不同国家生成不同语言、不同人物、不同场景。
这对阿里的意义,比单纯做一个视频生成工具要大。无论是淘宝,还是天猫,上面都有大量商家,也都有大量商品数据和交易反馈。
一个AI视频工具如果只知道生成漂亮画面,它很快会变成素材软件;如果它能知道这个商品在什么场景下更容易被点击,什么文案更容易带来加购,什么视频前几秒更容易留住用户,它就会接近电商操作系统的一部分。
阿里比其他视频生成模型公司多出来的,正是这个反馈闭环。
商品图、详情页、评价、问答、搜索词、点击率、加购率、退款原因、直播间停留时间,这些东西看起来零碎,却都是训练电商内容能力的燃料。
HappyHorse如果接入这些反馈,就可以从“帮商家生成一条视频”,进化到“帮商家生成更可能卖货的视频”。
面向淘天,它可以做主图视频、商品场景短片、直播切片、虚拟主播和营销素材。
过去一个商家上新,可能只上传几张图,最多再拍一条粗糙短视频。以后它可以把商品图、卖点、评价和人群标签交给系统,让系统生成多条不同版本的视频,再用真实投放和成交数据筛选出更有效的那一条。
这个过程如果跑顺了,平台内容供给会明显增加,中小商家的内容门槛也会下降。
不过,AI视频带货也有风险。它可以放大卖点,也可能放大幻觉。一个喷泉泵在AI视频里喷得很高,现实里达不到那样的效果。
阿里的机会不该是纵容商家用AI造梦,重点应该放在商品参数、实拍素材、买家评价和平台审核上,让生成内容有边界。
3月下旬,OpenAI宣布关停Sora独立应用和相关API。原因很现实,视频生成太烧钱,用户留存撑不起成本,OpenAI要把算力放回编码、企业服务和机器人方向。
Sora倒在了商业账上。
字节也在另一头遇到麻烦。Seedance 2.0虽然效果也很猛,但是因为版权问题,字节暂停了Seedance 2.0的全球发布。
模型训练得越强,就越容易踩进版权、肖像权和训练数据的泥潭。
这时再看张迪带队做出的HappyHorse,它有清晰的商业场景。而且阿里手里的商品图、商家素材、实拍视频和交易反馈,天然比影视IP更适合可控生成。
所以HappyHorse的价值,不只在榜单。它给AI视频找了一个更稳的落点。
(来源:新浪科技)
