从软件层面解决AI的数据孤岛问题,Hammerspace获1亿美元B轮融资
文 | 阿尔法公社
在AI基础设施领域,有的公司倾向于直接革新硬件架构,例如Groq,Enfabrica,有的则在现有的硬件架构上,以软件形式最大程度挖掘潜力。DeepSeek的3FS等技术是如此,一些海外公司也是这样的思路。
例如Hammerspace,它由一群架构师创立,从软件的底层架构切入,革新数据的储存系统,让企业可以不用迁移数据集,就能在AI训练和推理时低延迟,高吞吐量的访问数据,解决AI时代数据的储存孤岛问题。
近日,Hammerspace获得Altimeter Capital、ARK Invest以及数家战略投资者提供的1亿美元B轮融资,估值5亿美元。此前,Hammerspace从Prosperity7 Ventures(沙特阿美的风险投资部门)、ARK Invest、Pier 88对冲基金以及其他未具名投资者处筹集了5600万美元。而Hammerspace最早的资金来自于公司联合创始人及首席执行官David Flynn的自筹资金。
一群资深架构师,从软件层面革新AI数据基础设施
David Flynn作为Hammerspace的创始人之一,此前是Fusion-io的创始人兼早期CTO,Fusion-io是最早将NAND闪存设备直接连接到PCIe总线的公司之一,此后被SanDisk收购,更早之前David曾在Linux Networx担任首席架构师,在OpenFabrics技术堆栈的创建中发挥了关键作用,并设计了多台基于Linux集群、InfiniBand和RDMA技术的超级计算机。
Hammerspace的联合创始人兼首席技术官Trond Myklebust,是 Linux内核NFS客户端曾经的首席开发者,其他主要公司领导层也有丰富的技术和工程经验。
在AI时代,数据的储存孤岛问题是普遍存在于AI模型的训练,推理和应用当中的。AI模型依赖于大量数据,这些数据通常分布在多个云储存供应商平台和地理位置不同的数据储存孤岛中。而且,高性能算力和储存的数据通常也不在一个位置,这些数据也都是非结构化的。
传统的做法,是将整个数据集复制到云端或另一个全新的存储孤岛(通常离高性能算力更近),但是这种做法会大幅降低项目的ROI(投资回报率),还会增加数据的安全风险。
从技术上,这又归因于传统数据架构无法满足现代AI的需求,导致I/O(输入/输出)性能低下,并难以连接到基于云或远程的高性能计算基础设施。
另一个背景是,随着AI模型和推理对于算力的需求不断提升,企业越来越倾向于在云端运行其生产级别的AI工作负载。根据Hyperion Research的一项研究,这么做的企业达到它们调查企业数的43%。
在这两个背景下,Hammerspace设计了一种新型的数据平台软件来解决问题,使得组织具备在本地存储孤岛之间以及向云端无缝迁移和管理数据的能力。
Hammerspace是一种软件定义的数据编排和存储解决方案,它为数据中心内的所有存储以及不同云环境提供了一个统一的全局命名空间。
一旦获得适当的权限和访问授权,用户和应用程序即可连接到Hammerspace命名空间, 通过使用Hammerspace命名空间,弥合不兼容的存储孤岛,Hammerspace消除了将海量数据迁移到云端以处理AI工作负载的必要性。相反,该系统以文件粒度级别自动编排数据到远程计算资源,使AI模型能够直接访问数据,无论数据存储在哪里。
这一能力确保了高性能AI负载(如模型训练、推理和分析)能够在正确的时间获取正确的数据,无论数据存储在本地、云端还是跨多个地理区域。并且这一切都可以自动完成,而无需迁移整个数据集。
从底层文件架构切入,解决数据的储存孤岛问题
Hammerspace的核心技术包括Tier 0级储存,并行NFS(pNFS)文件系统和超大规模NAS 。
Hammerspace将GPU服务器上现有的本地NVMe存储转变为Tier 0级储存这样超快、持久的共享存储,解锁了新的存储层级。通过将这些之前“闲置”的本地NVMe存储无缝激活到Hammerspace全球数据平台中,Tier 0以本地NVMe速度直接向GPU提供数据。
Tier 0 级储存直接使用服务器内的NVMe储存,让延迟降低到微秒级别
它的好处是实现了线性性能扩展,简单说就是增加一倍的GPU数量,数据吞吐带宽也翻倍。在实际应用中,Tier 0级储存将模型训练检查点(Checkpoint)完成速度提高10倍至100倍,以减少检查点时间并增加检查点频率,从而释放宝贵的GPU计算周期。
此外也通过使用本地GPU服务器存储而非外部闪存存储系统,帮助数据中心运营商,每年节省数百万千瓦时电能。
并行NFS(pNFS)文件系统定义了一种NFS架构,其中元数据和数据路径是分开的,客户端一旦被元数据服务器授权,就可以直接与存储进行并行通信。
它的好处包括但不限于使得客户端和服务器之间能够以多条并行网络连接,包括对RDMA的可选支持,以避免TCP堆栈性能限制;在数据被访问时能够移动数据而不中断;实现文件级访问和性能遥测的收集与报告。
在并行NFS(pNFS)文件系统和Tier 0级储存的基础上,可以创建高性能的超大规模并行NAS系统,超大规模NAS将高性能计算文件系统的性能和规模与企业NAS的简便性相结合,因此客户可以在满足GPU计算的极端性能要求的同时降低成本和复杂性。
Hammerspace已经获得了包括Meta、NVIDIA、特斯拉、Palantir、SpaceX、Blue Origin在内的多个顶级客户,其中它在Meta的应用很能说明问题。
Meta运营着全球最大的超大规模AI流水线之一,它依靠 Hammerspace在1000台现有的NVMe存储服务器之间编排数据,以12.5TB/S的速度为包含24000个GPU的AI研究超级集群提供支持。它的解决方案使Meta能够避免在存储系统之间移动数据的成本高昂且耗时的过程,同时充分利用其现有的存储和计算资源。
截至去年12月31日,Hammerspace的全年营收增长达十倍,客户数量增长32%。而且在客户满意度、保留率及增长效率指标上表现亮眼,它的GRR (总收入保留率) 超过95%,NRR(净收入保留率 ) 超过 330%,凸显了公司的增长效率及其在现有客户群中实现有机增长的能力。
进入2025年,Hammerspace也开始在亚太市场扩张,包括中国市场。
AI技术的需求促进储存系统革新
基础设施与应用的发展,是相辅相成的关系,新技术推动的新应用,总会对基础设施提出新的要求。AI技术对于数据的数量,质量提出了新的需求,也促使数据基础设施做出创新,无论在硬件层面,还是在软件层面。
在硬件层面有Enfabrica等数据传输类芯片,在软件层面,有Hammerspace这类利用现有硬件架构,但从软件底层革新架构的公司。
事实上,与Hammerspace一样,为了AI的需求革新储存系统的厂商不少,因为AI的训练和推理,通常需要储存系统具有低延迟访问和高数据吞吐量,例如VAST Data (客户包括xAI,CoreWeave),WEKA等公司也都构建了适用AI的储存系统,而且它们都不约而同的革新了并行文件系统。
在国内,也有企业在这个方向上耕耘,例如DeepSeek的高性能分布式文件系统3FS,以及华为的A800AI高性能储存系统。
不过,要从进入这个领域创业的门槛,显然不低,因为它并不是应用创业那样有一个想法就可以开始,而是需要对于整个技术栈有十分透彻的理解,不然也不知道从那个点去切入和革新。例如,Hammerspace的创始人们本身就在SSD储存和Linux文件系统深度耕耘,华为在企业级软件系统的积累也十分深厚,DeepSeek则是拥有超高密度的顶尖人才。
有了足够先进和稳定的基础设施,AI应用生长的土壤才足够肥沃,无论是在硬件,还是软件,还是工具方向,中国的创业者们,都应该拿出自己的硬实力。
(来源:钛媒体)