智象未来姚霆:在双寡头格局下,一家AI视频创业公司的生存法则与Agentic未来
编辑|刘毓坤
在中关村论坛的分论坛间隙,智象未来(HiDream.ai)联合创始人兼CTO姚霆坐在一间就近的会议室里,用极快的语速和极高的信息密度,讲述了一家AI视频创业公司在"字节-快手"双寡头格局下的生存逻辑。
这位出身微软研究院、曾在京东带领团队做过十亿级图像搜索和7×24小时物流智能机械臂分拣视觉方案的技术派创业者,正带领智象未来走出一条与行业主流叙事不同的路径——不追逐大而全的通用模型,而是深耕"1+3"垂直场景,押注全模态世界模型与Agentic应用的终局。
从微软到京东:视频生成的基因溯源
姚霆的技术履历几乎贯穿了中国AI视觉商业化的完整周期。
"那时候就做很多跟搜索引擎相关的图像识别,比如Bing的video search,包括小冰一些视觉对话,后来做偏图到文的生成,还不完全是文到图的生成。"在微软研究院时期,姚霆参与了小冰的视觉对话系统,"用户提交一个图像、视频,给它生成一些描述,驱动用户和小冰之间的聊天"。
2018年离开微软加入京东后,他的团队将视觉技术大规模商业化:"今天大家用京东APP的时候,经常会使用的功能叫以图搜图,或者在京东叫拍照购,淘宝叫拍立淘——是那时候我们在做的事情。我们做了有十亿级商品图像搜索。"此外姚霆和他的团队在探索的还包括京东所有的图像视频内容审核,以及部署在物流仓里的具身智能的前身形态:两套7×24小时稳态运营分拣机械臂的视觉方案。
但真正的转折点发生在2017年。"那时候我跟潘博士跟着梅老师还在微软亚洲研究院,做了全球第一个从文生成视频的工作研究。"姚霆回忆道。这一超前布局在2022年终于迎来爆发点——Midjourney的图像生成和ChatGPT的横空出世,让团队看到了"很大的场景可能性,且这个场景跟我们相关,因为我们是做这个(多模态技术)出身的"。所以,我们一起创立了智象未来。
2024年,智象未来开源了HiDream-I1模型以撬动声量。如今,这家成立刚三年出头的公司B轮融资正在交割中,ARR(年度经常性收入)已达数千万美金级别。
世界模型的三重定义与全模态终局
面对"世界模型"这一概念混乱的技术路线之争,姚霆给出了清晰的分类框架。
"世界模型其实分三个层次,"他解释道,"大语言模型算是较高维度的一个世界知识表达,其次还有一个中层表达的学习,像Yann LeCun做的那套JEPA就比较偏中层的表达学习,它是偏理解,理解完了之后会做动作预测。还有另外一个分支跟我们比较相关,就是底层的像素的生成,或者我们认为是视频的生成。"
他认为,近期世界模型的定义正在收敛,可分为三大类:第一类是在现有视频生成模型中融入因果关系和物理规律;第二类是根据用户指令实时生成场景(如Genie-3的代表性工作);第三类是World Action Model,"跟具身智能特别相关,核心问题就是根据用户的输入指令,同时生成视频和动作"。
智象未来的技术路线选择是全模态统一架构。"各个模态之间不会去单独的编码,它一定是统一的编码,或者可以简单认为它是个统一的tokenization,"姚霆强调,"它一定是全模态而不是以前经常说的多模态。"
这一技术判断直接指向Agentic应用的未来形态。"我们会认为所有的Agentic app是等于一个平台或者一个载体,这个载体可能是PC,可能是手机,乘上一个中间的Harness,或者我们认为是context learning,会对下层skills的一些管理、适配以及组合,底层可能是OS,类似OpenClaw的形态。"
姚霆进一步阐释这一范式与世界模型的关系:"如果真的有一个很强大的全模态的世界模型,那就可以很好的支持用户的输入可以是任意模态甚至是同时有多个模态,下层的skills也是各种模态,中间的harness对这些模态的管理也是全模态的,真正可以做到端到端完成用户想创作的任何任务。"
在他看来,终局形态是"任意输入,任意输出"——"想怎么输入,想它输出什么它就可以输出什么。在一定时间内,我的预期就是这样,它才是可以称得上世界模型的东西。"
"1+3"架构:避开通用模型陷阱
在商业化路径上,智象未来明确避开了与大厂在通用视频生成能力上的正面竞争。
"没有任何底层模型可以解决任何问题,就不说视频了,连文本都不会,"姚霆直言,"大家会找到自己的垂直的赛道、行业、场景,在这个场景下去深耕商业化,才是我们能够生存以及发展更好的机会,而不是说无谓的去做通用的模型能力。"
这一思路体现为智象未来当下的"1+3"的产品架构:一个底层全模态世界模型底座,支撑上层的三个智能体出口——视频创作工具vivago、AI影视制作、以及营销场景应用,未来甚至是更多的智能体应用。
在基本上没有进行投流获客的自然状态下,去年上线的vivago目前海外专业创作用户已超过三千万,单是今年Q1新增用户就接近两千万,"希望今年很有可能会做到超过一个亿用户"。AI影视赛道"不完全统计我们已经制作超过五千分钟短漫剧了",包括12集漫剧《量子湖传说》和参与春晚合肥7分钟的制作。营销场景则延续了团队从京东时期积累的基因。
即将发布的"帧赞"产品瞄准AI影视的工业化标准。"我们上周参加安徽紫云山的微短剧大会,这个行业有个很重要的问题——之前快速上这么多AI漫改的剧,但是质量偏低。为什么只有10%的能赚钱,因为观众的需求水平很高的,我们还是希望为这个行业提供一个更高质量的、工业化标准的协作工具。"
商业化结构上,目前2B收入大于2C,但姚霆认为Agent体系的发展"可能会带来更多的2C的可能性,空间和潜力更大,所以不排除2C的比例未来会提升"。
双寡头格局下的生存法则:速度、架构与Agent
面对字节(即梦)和快手(可灵)的生态闭环,姚霆并不认为初创公司没有机会。
"今天这个时代,大家去做人工智能,机会来说是相对会比较平等的,"他说,"但是作为初创公司,我觉得有几点还是要做好才有可能抓住机会。"
首先是技术架构的持续领先。"从2023年Unet开始,到DiT,到后来我们做到扩散自回归架构Diffusion + Auto-Regressive,今天我们做的一个全模态全新的架构,可以认为我们每次还是精准的踩住了整个技术迭代的突破口,甚至在某些时间点上还会领先几个月,有可能3个月、6个月。"
其次是产品速度必须快于大厂。"有很多的应用场景以前是不会拍脑袋想出来的,这种才是我们所说的速度一定要快,一定要把大厂,甚至要做得比寡头们速度更快、迭代更快。"这是创业公司所拥有的灵活性便利。
第三是跳出能力竞争的维度,转向Agentic的端到端创作。"Sora这一类产品只是提供了一种能力,但是它并没有为用户提供完成创作任务的智能体体系,我觉得这可能是我们接下来最大的机会。未来我们产品的发展可能完全的跳开能力本身去帮助用户便捷地完成端到端的真正的创作。"
姚霆用"发挥有限弹药的力量同时保持灵活性"来形容这一策略——"只要下面的全模态Harness平台做好,上面Agent可以很快速的进行调整"。
国产算力适配与具身智能布局
在算力层面,智象未来已完成与阿里云、华为云、寒武纪等国产算力的商业适配。"上线之前我们都会做很好的适配以及效果的对比,一定是达到效果预期才会切换到新的算力平台。"姚霆表示。
具身智能是另一个战略方向。"最近已经开始跟具身智能专业数据基础设施企业诺亦腾机器人等开始战略合作,帮助他们首先解决具身智能的高精度训练数据问题,我们会结合真实的数据和多模态大模型生成的数据,去做一个融合,既可以给具身智能本体厂商用户去预训练VLA模型,当视频数据的精度达到毫米级别,也可以直接用于后训练,"姚霆透露。"
他认为,全模态模型作为底座,"无外乎我的输入、输出可以是Video也可以是动作,整个模型会支持多样性的输入和输出,它就可以适配我今天做具身去生成数据,或者说今天直接去做VLA,做action prediction"。
关于Sora关停与行业分化
对于OpenAI关停Sora的消息,姚霆将其置于更大的行业分化背景下理解。
"国内喜欢做更全的平台链路,海外更注重模型的能力,"他观察道,"我觉得两条路线没有谁建立的壁垒会更长久,关键是看各自在垂直场景下的深耕程度。"
在他看来,Sora的退场并不意味着国内通用模型的胜利,反而验证了垂直深耕的必要性。"字节和快手有自己的主营业务,但是到底和生成类大模型如何形成生态耦合性,还有待企业自我未来发展的进化和验证,"姚霆分析道
Agentic未来:从OpenClaw得到的启发
访谈中,姚霆多次提到"OpenClaw"(龙虾)这一概念——一个关于AI OS的隐喻。
"如果我在我的手机背后再附加一个某种形态小的载体,它就是我的个人的Openclaw载体"他描述道,"如果这个事情未来真的发生,就能真的解决或降低了安全风险的问题,我觉得真的是超出我的预期。"
这一思考直接映射到智象未来的产品哲学:"怎么样去做一个创作的Agent,这个我觉得对我来说会谈到的启发点。今天包括它的一些概念,随之而产生未来的这种智能化APP等于什么,等于就是Harness乘以一些skills,底层就是OS,这个OS可以是Openclaw,可以不是,但我觉得所有的范式都会变成这样的方向。"
在姚霆的构想中,未来的创作工具不再是单一能力的堆砌,而是"Harness对这些模态的管理也是全模态的,它的管理包括描述都可以是多模态的范式"。这也是"帧赞"和下一代产品试图实现的愿景——不是更快的视频生成,而是端到端的创作Agent。
在AI视频生成进入"双寡头+多垂直"格局的2026年,智象未来的故事提供了一个重要的观察样本:一家技术派创业公司,如何通过架构创新的确定性、垂直场景的深耕、以及对Agentic新局的提前勾画,在巨头环伺的赛道中寻找自己的创新生态位。
正如姚霆所说:"在一种非常卷的高速发展的情况下,每个人都有机会,而不是大厂有机会我们没有机会。"
(来源:新浪科技)
