2025年3月5日,Hammerspace面向国内媒体召开了一场沟通会,正式向公众宣布进入中国市场了。作为关注数据存储领域的媒体从业者,我表示:已经很久没看到国际性数据存储厂商进入中国市场了。

过去十多年以来,国内存储市场环境发生了很大变化。一方面受政策导向影响,国际厂商发展受限。另一方面,国内几家存储公司技术产品实力不断提升。如果没有特别之处,新来的国际巨头很难在国内市场上立足。
Hammerspace显然是有备而来的
从外媒的报道中了解到,从2023年到2024年,Hammerspace的收入增长了10倍。在2022年,该公司也宣布其收入相较于2021年增长了200%。
在2024年,Hammerspace的客户规模增长了32%,并且总收入留存率 (GRR) 超过 95%。这表明,Hammerspace的用户满意度惊人地高。
不仅如此,用户还用真金白银为Hammerspace投票。Hammerspace的净收入留存率 (NRR) 超过 330%,现有用户为Hammerspace贡献了很多收入。
在 2024 年,Hammerspace 将员工人数增加了 75%。不久前,宣布将在亚洲开展业务,将在中国、韩国、日本、新加坡和印度市场发力。在中国市场上,将与北京驿心科技合作,提供全新的存储与数据编排解决方案。

Hammerspace是一家2018年成立的公司,创始人是大卫·弗林 (David Flynn),他曾是Fusion-io的创始人,Fusion-io是最早将NAND闪存设备直接连接到PCIe总线的公司之一,这家公司在2014年被SanDisk(闪迪)收购。
大卫·弗林在做 Fusion-io CEO之前,曾是 Fusion-io 的首席技术官,是不折不扣的技术专家,他在Web浏览器技术、移动设备管理、网络交换和分布式存储系统协议等领域拥有100多项专利。
Fusion-io的大胆创新对存储行业带来了启发,而Hammerspace也颇具创新性,这次创新的关键就在于,拥有一套超强的数据编排和调度能力。
Hammerspace数据编排平台,堪称魔法

Hammerspace提供的是基于并行文件系统pNFS打造的全区数据平台(Global Data Platform)软件,它可以用来编排存储在本地服务器、存储系统和云存储系统中的非结构化数据,将跨多个本地站点和多个云平台的存储呈现在一个全局命名空间当中。
当数据统一到这个全局数据平台后,通过超强的自动化数据编排能力,用户可以不用管数据在哪儿,都能更快、更高效地访问数据。它提高了数据的流动性,解决了传统存储的数据孤岛问题,帮企业更好地管理和利用数据。

这种能力达到了一种神奇的效果。Hammerspace董事总经理Molly Presley表示,这就像动画片里的人物都有一个“超维空间”,可以从“空间”随手拿出来各种道具,“空间”所代表的就是Hammerspace,这正是公司的名字。
这也代表了Hammerspace的理念,它希望数据存储能像这种“超维空间”一样灵活。无论用户需要什么样的数据,无论数据在哪儿,都能立即从系统中获取,实现数据的瞬时访问,就像动画角色随时能从 Hammerspace 里拿出道具一样。
Meta首席工程师认为,“Hammerspace 能做到的,简直就是魔法”。
Hammerspace的能力可用于AI和HPC等场景
Molly Presley介绍称,AI训练需要的是去重的数据,过去积累的数据中包含大量重复信息,Hammerspace 的元数据管理功能可以确保不会创建重复的数据副本,把去重后的数据给到训练系统可以提高AI训练的效率。

据介绍,Meta的Llama 2和LLama 3训练过程中就使用了Hammerspace的服务,Meta在训练过程中使用了至少24000块GPU卡,还有1000个存储节点。
Molly Presley表示,Meta在AI训练中对新技术的选择非常谨慎,因为它希望新技术能无缝集成到现有架构。Hammerspace凭借其基于标准协议架构,很好地满足了Meta 的需求,没有破坏原有的技术体系。
此外,凭借12.5TB/s的聚合吞吐带宽,Hammerspace为Meta提供了充足的性能,确保了GPU资源的高效利用。同时,为满足Meta的能耗要求,Hammerspace支持Meta在能源成本较低的地方进行训练,而不用把所有数据都进行迁移。
Hammerspace的技术不仅应用于AI训练,还助力视觉特效行业优化工作流程。

例如,全球知名特效公司Jellyfish Pictures依托Hammerspace的架构,实现了6个全球站点间的数据高效协同。通过将数据智能调度至最接近计算资源的位置,Jellyfish Pictures加快了渲染与剪辑任务,同时节省了近300万美元的云渲染成本。
Blue Origin(蓝色起源)依托Hammerspace实现了跨美国9个站点的数据实时流转,提升了火箭研发、发射准备和飞行数据分析的协同效率,整体访问速度提高80%,帮助工程师快速识别并优化火箭性能。同时,其分级存储策略节省了超100万美元。
蓝色起源的案例很有意思,它的创始人是贝索斯,而贝索斯同时也是亚马逊的创始人,亚马逊的云服务也有很多数据存储服务,即便如此,也使用了Hammerspace的数据管理服务,蓝色起源看中的是Hammerspace在多站点分布中的数据管理能力。
Hammerspace可以提供HPC并行文件系统的性能,可取代Lustre。

Los Alamos国家实验室在高性能计算项目中选择Hammerspace取代Lustre,并成功部署在1000台NVIDIA SuperPOD集群上。Hammerspace凭借其独特的数据管理和存储优化能力,满足了实验室对高效计算和数据访问的需求。
Hammerspace的Tier 0,可大幅节省AI训练的成本
2024年11月,Hammerspace发布了一个叫Tier 0的方案,这是一个超高速的共享存储层。它不仅能加速数据读写、减少GPU空闲时间,还能节省存储成本、能源成本以及数据中心机房空间,能大量节省训练AI模型的成本,好处多的数不清。

传统做法中,GPU服务器的本地存储的NVMe SSD很少被利用,主要依赖外部存储系统,而Hammerspace的Tier 0方案,通过超强的编排调度和数据分层技术,把本地 SSD用作数据缓存层,直接为GPU提供超高速的数据访问。
尽管GPUDirect已经非常高效了,但由于仍然需要涉及大量网络传输,其效率仍不如本地NVMe SSD。
值得一提的是,Tier 0能将AI和HPC集群创建Checkpoint的速度提高10到100倍,这意味用户可以提高Checkpoint的频率,从而减少重复计算的时间。Hammerspace认为,用户每年可以解锁10-15%的额外的GPU计算能力。
结束语

Hammerspace要打造的是一个全局数据平台,无论数据存储在边缘、异地数据中心还是云端,都能按需流动,实现实时访问。该平台在AI和HPC等高性能存储场景的应用大有可为,也将会成为其进入中国市场的重要切入点。