大模型初创公司出海，云计算护航丨创新场景

2025年09月16日,17时42分51秒科技新知阅读 4 views 次

本文摘自《云栖战略参考》，这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来，与思考同样问题的“数字先行者”共同探讨、碰撞，希望这些内容能让你有所启发。

2024 年年初，Sora 的问世让视频生成赛道成为了全球 AI 界瞩目的焦点。

自 2023 年创立的爱诗科技一直布局海外 AI 视频市场，对赛道内变化感受深刻——此前市场仍在“实验创意” 阶段，直到 Sora 震撼了行业内外，吸引了资本和媒体的目光，让视频生成从“小众玩具”直接提升到战略高地，全球科技巨头也纷纷入局。

如何抢占先机并吸引用户生成 AI 视频？爱诗科技选择加速技术迭代——自公司成立以来便聚焦视频大模型，在 Sora 发布前已推出首代模型 PixVerse，现已更新至第六代。如今，PixVerse（拍我 AI）已成为全球用户规模最大、生成速度最快、质量最高的视频大模型之一，短短两年间，用户量已突破 6000 万。

但这背后面临的是克服技术迭代和出海拓展的双重挑战。对于一款布局全球的应用而言，如何有效利用分散在全球各地的数据进行有效训练和提升？如何满足当地合规需求的跨境数据传输？爱诗科技于今年和阿里云开始合作。

赋能多模态大模型全球布局

视觉内容正成为人们获取信息最重要的媒介。但在短视频平台上，大概只有不到 10% 的用户会创作或者发布视频，因为大部分用户都存在“心理门槛”——怎么拍好视频、怎么剪辑、怎么配音配乐、怎么让自己创意发布之后不会让朋友嘲笑......爱诗科技联合创始人谢旭璋在今年 5 月份的阿里云 AI 出海峰会上表示，希望能用人工智能帮助全球这么多没有做过视频的人，用视频第一次来分享生活，传递情感，分享快乐。

不过，这一看似简单的想法背后面临的是技术实现的现实挑战。与文生文的大语言模型不同的是，多模态视频大模型需要处理多模态的数据，对 GPU 的显存能力提出了更高的要求。与此同时，C 端用户对生成视频速度要求高，在高并发的场景下，如何降低多模态大模型的推理延迟，给用户带来更好的使用体验?

在爱诗科技致力于多模态大模型产品落地的过程中，主要面临着三大挑战：首先是海量训练数据的迁移与归集问题；其次是实时数据处理能力的提升；最后则是优化资源利用效率，以实现提质增效的目标。

首先，由于爱诗科技全球化的布局，致使数据分散在世界各地，并且需要与线下 IDC 以及其他云厂商进行资源的调用和交互，这就牵扯到了海量数据汇总以及跨区域传输数据，比如，爱诗科技训练数据分布在全球多个地域，需要统一汇总管理，这就为整体训练与推理过程中，大数据迁移和成本提出了挑战。

同时，在底层视频模型上，爱诗科技采取 Diffusion+Transformer(DiT)架构，在模型训练和推理过程中需要处理大量视频、文本和元数据，对数据库的实时分析、多模态数据处理和高并发的查询效率提出了较高要求。

此外，爱诗科技对训练和推理平台的性能要求高，需要提升资源利用率和产品界面使用体验。

计算资源方面，因为爱诗科技全球化的布局，尤其是在北美洲、中美洲、欧洲等地区用户群体较大，对于该地区的本地计算节点需求大。而自建成本高，且建设周期长，所以对于爱诗科技而言，亟需一家具备全球化云计算节点布局能力的服务商，承担其在海外的业务负载。

因为多模态大模型相对大语言类模型而言，对 GPU 的使用率及要求更高，且爱诗科技业务具有较强的云计算弹性能力需求，这也对其云服务商的 GPU 弹性计算能力提出了更高的要求。

此外，谢旭璋指出，爱诗科技的业务由于采用了多模态大模型，对多模态数据处理提出了更高的技术要求。这不仅体现在对 GPU 芯片的高利用率需求上，还对并行计算能力提出了更为严苛的标准。此外，鉴于其全球化布局及庞大的用户基础(超过 6000 万用户规模)，也需要高并发云计算弹性确保为用户提供稳定、高效的服务体验。

除了对于云计算性能上的要求之外，对于初创型企业而言，成本也是一个不能不谈的话题，对于爱诗科技而言亦是如此。

具体来看，作为一个成立两年多的团队，爱诗科技虽然在大模型研发与应用方面有着丰富的经验，并保持高度灵活性。仅两年时间，公司已成功迭代六代大模型产品。在快速迭代产品的过程中，如何以更低成本、更高效地利用云计算的能力，成为了爱诗科技和阿里云共同关注的核心方向。

云上部署：让全球化业务轻装上阵

如何服务好短短两年间内积累了超过 6000 万名用户？爱诗科技的答案是：找到一个靠谱的全球化云服务商。

在 2023 年年底，爱诗科技决定布局海外市场之初，就与阿里云展开了深度合作。

最初，爱诗科技选择与阿里云合作，主要是因为阿里云在全球范围内拥有广泛的云服务节点，并且具备强大的云计算弹性能力。目前阿里云在全球 29 个地域运营着 89 个可用区，是亚太规模第一的云服务商。爱诗科技决定与于阿里云一同探索多模态视频生成大模型如何为全球化海量用户提供优质的体验和服务。

首先，在跨区域数据传输方面，为了满足“训练数据统一处理”的业务需求，爱诗科技经由阿里云的多 EIP 和共享带宽等方式方法提升公网下载速度，通过 OSS 跨区数据复制实现了全球异地容灾备份以及全球数据加速分发加速。

在数据处理方面，爱诗科技最初采用的是关系型数据库，然而爱诗科技的数据分布广泛，遍布全国乃至全球各地，海量数据的高效汇集与处理面临挑战。

在经过权衡之后，爱诗科技选择开始使用阿里云实时数仓 Hologres，基于分布式架构的 Hologres，支持 PB 级数据分析且具备高效的数据压缩能力，通过实时写入与更新机制实现低延迟响应，在解决爱诗科技性能瓶颈问题的同时，还满足了实时数据分析和高并发的需求。

在此基础上，爱诗科技还选择了使用阿里云人工智能平台 PAI 平台支持大模型的训练。PAI 平台是一款面向企业级用户和开发者的一站式 AI 平台，作为模型训练与推理的一站式平台和一体化智算管理与调度系统，为开发者、模型创新者提供了底层核心技术支持。在接入 PAI 平台之后，爱诗科技可以将更多的精力放在其专注的大模型迭代研发上，搭建、调优和运维等操作完全不需要其操心，随时可以使用高扩展性、高性能、高性价比的 AI 训练资源和环境，爱诗科技实现了灵活的、细颗粒度的资源管控，满足了高效、动态的调度和无感切换需求，提升算力利用率，以更小的硬件成本，获得更大的算力供给。

与此同时，阿里云通过采用标准化云资源调度系统，搭建统一架构，从而能帮助爱诗科技实现全球资源调度，确保跨国业务体验一致性，并且可以凭借全球范围内的云基础设施覆盖，帮助爱诗科技实现业务就近部署在确保了业务的一致性与低延时的同时，还能节省数据传输过程中的成本，从而降低整体业务成本。

提质、高效，全都要

在出海寻求新增量的同时，企业近年来都开始寻求提质增效的路径，爱诗科技也不例外。

多模态大模型底层数据集的规模比大语言类模型所需数据集规模大很多，且数据标注成本相对较高。

以大模型提示词场景为例，因为爱诗科技的大模型产品相较于传统的文生视频的大模型存在些许差别。传统文生视频大模型提示词需要用户自己撰写，爱诗科技的文生视频大模型为了让全体用户都能获得比较好的使用体验，采用了模块化提示词的模式，相较于传统模式模块化提示词在应用过程中，对于算力波动性需求较大，还需要同时进行文本解析和高分辨率图像渲染的操作，对 GPU 显存，以及并行计算能力要求相对较高。为此，爱诗科技也对阿里云提出了新的需求——实现跨模态数据交互机制，这其中还包括了缓存的高性能处理等需求。

基于此，阿里云通过数据加载优化和集群通信优化 ACCL 通信库大幅提升 GPU 利用率，通过分布式训练管理平台、云原生交互式编程环境以及训练加速框架，大幅提升了 AI 作业效率。

除此之外，在整体云性能表现层面，阿里云提供自助式云架构管理产品，让爱诗科技省去了开发部署的时间。

在最近的一次部署中，爱诗科技采用了 CADT(云速搭) 的部署方式，实现了分钟级 GPU 云服务器部署和业务上线，显著降低了应用云上管理的难度和时间成本。同时，爱诗科技还可以对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

相对于爱诗科技这样的视频生成初创公司而言，其团队在大模型领域拥有深厚的专业知识和技术积淀，但在优化云服务、确保安全可靠的同时最大限度地降低云计算成本等方面的经验仍略有欠缺。

面向这样的初创企业，阿里云提供的也不仅是产品，更为其提供了“管家”式的服务，不仅会分享最佳实践的案例，还会手把手传授如何更好利用云服务弹性能力、如何利用好云安全中心确保安全等方面的经验。

而这种做好用户底层“管家”的模式，用户可以将更多的精力专注在业务层的开发上面，一方面省去了底层基础架构方面的框架搭建与后续运维时间；另一方面，也让缺乏云应用经验的企业避免了在使用云计算赋能业务过程中，出现浪费资源、操作不当等情况的发生。

接下来，爱诗科技将与阿里云深化云资源合作，为全球 AI 视频生成用户提供更加稳定、高效的服务。双方将扩大在云计算、数据存储及大模型应用等多个领域的合作，推动 AI 视频生成技术的持续发展。

本文摘自《云栖战略参考》总第19期

扫码查看最新杂志

↓↓

大模型初创公司出海，云计算护航丨创新场景

(来源：钛媒体)

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

赋能多模态大模型全球布局

云上部署：让全球化业务轻装上阵

提质、高效，全都要

关联资讯:

用户登录