智能时代的故事话题,是有鄙视链的。
如果你能脱口而出CPU、GPU、ASIC、FPGA的区别(中央处理器、图形处理器、专用集成电路、现场可编程门阵列),一定让人侧目。如果能讲清楚存算一体应对AI算力瓶颈,听众都得夸句懂行。这时有人问你,算力大家都懂,但存储为什么要叫存力?
如果这时候你还能答出来,才叫真牛。
数据存储的叫法演变,从storage到存储再到存力,直观传递出地位的变化。就像群演终于登上了电影谢幕的演职表,数据存储被视作一股“力量”,正式登上智能时代的舞台中央。
现在,一直在引领“存力”这个概念发展的中国存储巨头曙光存储,开始以“先进存力中心”为范式,打通中国存储产业资源,并联合IDC发布了白皮书《构建面向智能化时代的先进存力中心》。了解这种实践,不但让你对存力有更直观的认识,也对其产业价值会产生新的思考。
——导语
01存力时代从存储到存力,虽然只有一字之差,但却是数字化进程的历史突破。
目前所谓的存力概念,广义上包括内存,但多数语境下是指的外存储器,也就是我们的数据的主要承载体。
回到开篇提出的那个有趣问题,存储这个词用了很久,为何要升级为存力?
在汉语里,“存”和“储”其实是同义词,它们都更偏向于“储存数据”这个相对来说比较静态的运用维度。
我访问过的一位院士也曾经谈及——存储长期以来是个配角,它有价值但不是主力;只要不成为系统的瓶颈,不危及数据的安全,人们就较少关注它;它一直在默默的发展,但很少走到舞台中央。
但就是这种“默默无闻”的配角身份,使人们常常忽视存储子系统的价值,以至于产生了两种有失偏颇的认知——
第一种偏颇,是没有正确的看待存储对于整个系统的价值,投资比例失调。
倪光南院士就多次、多场合的提及,中国在算力建设中常常存在存算比不合理的问题——国内高度重视投资算力,而轻于投资存储,最终反而使得系统存在短板。
一个经常被引用的数字是,在某些发达国家,存算比投资达到1:1,也就是一块钱投向算力,就有一块钱投向存储。
而中国的存算比约为0.4:1,也就是1块钱投给算力,只有4毛钱投向存储,如果联系历史数据,这个值可能更低。
这导致了一个结果,就是目前国内很多算力中心的算力利用率不高。虽然,这是一个系统性的问题,不能简单归因于存储,但存储性能肯定是诸多短板中较短的一块。
第二种偏颇,就是简单的把“存储”和“数据”混同为一体。
我曾和一位业内专家激辩,原因是他认为无须提出“存力”这个概念。他认为,在AI的“黄金三角”也就是“算法、算力、数据”中,数据就等于存储,而存储不需要独立派生出一个“存力”的概念。
这个观点,在上一次AI浪潮中可能是成立的。
但在目前以深度学习为主线、大模型为主要应用场景的生成式AI的竞争格局中,在动辄万卡、十万卡的大集群场景中,预训练数据集的体量和质量, 训练过程中数据的加载和检查点的建立,直接关系大模型的训练结果——这种新的模式,头一次把数据存储—数据应用—训练结果紧密的联系在一起,也让传统的存储子系统的短板骤然暴露。
这种暴露,是人类遇到的百年不遇的技术架构大变局——智能化,与传统存储体系之间存在的天然矛盾被放大了。
其中的核心逻辑是——当人类发明智能手机后,仅仅十年就在全球一共有了43亿用户,是有史以来唯一达到这一量级的数字化工具。而且,这是一种全时在线、实时生产数据的工具。这也就决定了,人类迎来了历史性的数据大爆炸。现在的人类,每年产生100多个ZB的数据,一年的数据增量就几乎相当于自有计算机以来产生的全部数据,而这一切都需要海量存储来承载。
有了大量的数据后,人类开始有大数据的概念,大数据进而滋养了AI的发展。在我们还没有反应过来的时候,数据已经成为和能源、土地、货币等同一个层次的顶级经济要素。
而直到这一刻,人们才发现,原本够用而且也还算便宜的存储系统,开始跟不上时代的节奏。
传统存储体系面临的天然困难是,够快的介质不够便宜,够便宜的介质不够快,又快还比较便宜的介质的软件算法还不够好——在我和一位院士的交谈中,他指出——传统上为了解决成本问题而存在的对数据进行冷热分层的做法(给越常用的数据搭配越快的介质),实际上极大的增加了计算的成本。以至于大量的CPU的工作不是在处理数据,“而是沦为了数据搬运机”。
而IDC中国区副总裁周震刚则直接预言说:我觉得这种趋势会越演越烈,很可能在未来的智能计算中,CPU的运算作用越来越小,而“数据搬运”的工作量越来越重,GPU则更专注于推理运算。”
IDC中国区副总裁周震刚
在另外一个我们常见的语境中,存力、算力、运力,被认为是共同构成了数字基础设施的核心底座。
但事实上,在“存力”这个概念里,相对于“存储”的重点拓展——就是“存力”的概念中天然的包括了一部分“运力”的因素,特别是在分布式存储越来越受到重视的当下,存储体系的分布式架构中很重要的一个概念就是数据传输,这和传统意义上的“运力”既有重合又有些微的冲突,从另一个侧面体现了从“存储”向“存力”过渡的过程中,一些固有的观念将受到挑战。
事实上,存力不仅仅包括静态的“存”和动态的“运”,而“先进存力”更包含了“海量、高效、融合、绿色、安全”等多元要素——这也决定了,存储和存力虽然只有一字之差,但背后却是许多领域固有观念的打破和跨领域的融合。
一边,是随着IT基础设施的建设热潮,人们看到了传统“存储”概念的局促性和“存力”概念的良好扩展性;另一边,是云计算、AI等技术应用的火爆,推动存力地位上行。
那么,存力时代真的到来了么?
02先进存力的实践阶梯作为业内首个提出“先进存力”概念的厂商,曙光对此的表述似乎更为完整——中科曙光高级副总裁关宏明曾重点解读过“先进存力”的概念,即落地打造具备‘一平台多协议、应用亲和、全域数据流动、安全可靠与绿色节能’五大优势的先进存力中心,以全面满足市场对数据存储的容量、性能、安全与产业化多重需求。”
可以说,“先进存力”一直存在于曙光存储的脑海中,但在不同时代,各自有各自的主要场景和载体。
如果从先进存力自身进化的角度来说,在过去十几年中,以曙光存储为例,可以看到爬升了三个阶梯。
而爬升的一个前提则是,曙光存储从2009年开始自研的分布式存储系统ParaStor已经基本成熟,具有了一切主流、高端的分布式存储的技术特性,并且有了大量的产业实践,多年在国内软件定义存储市场(一般认为即指分布式存储)处于数一数二的位置。
在这个基础上,曙光存储发展先进存力的第一个阶段,叫产品化。所谓的产品化,就是把成熟的底层存储能力,和特定的场景结合,开发出具有很强的针对性的产品。
这里面既包括“智存”,也就是经典分布式存储产品——ParaStor全闪存储针对AI场景的优化,进而具备五级数据加速技术,搭配全路径AI亲和机制,最高可以提升全平台整体表现20倍+。
当然也有“强存”,曙光存储今年发布的FlashNexus系列,不仅是全球首个亿级IOPS集中式全闪存储,还是业界唯一有百控级扩展能力的集中式存储产品,稳定性保障首次突破7个9,综合性能领先同类产品50%以上。
但是,产品线化只是相对于曙光自身的进化,更高的一级台阶,我们称之为“方案化”。可以说,如果“强存”、“智存”主要是根据场景来设定,那“方案化”就是针对更细分的领域推出专属产品,例如针对AI大模型、自动驾驶、智算中心、具身智能等等行业推出专有的解决方案。
曙光存储总裁何振就指出,方案化的前提,是和用户的高度交互,是“从用户需求来打造产品”这个观念的实践,当然也是曙光具有代码级优化能力的底蕴才能发挥的作用。
然而,无论是产品线化,还是解决方案化,都属于常规赛。曙光存储真正令人刮目相看的是,是提出了“先进存力中心”的概念。
我们知道,在科技行业,提出概念很容易,但践行概念并推广成功很难。
这就像乔布斯2007年拿出初代iPhone时,世界上已经有很多叫“智能手机”的设备,但iPhone的魅力就是能让人们认为“这就是智能手机”。从而,全世界的研究者也都把“iPhone时刻”当作移动互联网时代降临的元年。
“先进存力中心”是否能成为先进存力行业的“iPhone时刻”,只有时间能检验。但从它目前展现的一些特质上来说,可以说每个特性都是击中当下存力发展痛点后的解决方案。
例如,在前文中我们曾经谈到过,为了做到成本和性能的平衡而产生的冷热分层机制,反而成为了吃掉算力的“重劳动”。
“我们建立的先进存力中心,会自动地筛选数据的冷、温、热”,曙光存储副总裁郭照斌说:“例如,对于热数据,我们一定是提供最先进的高效的数据能力。但这个工作不是由用户在他们的业务层实现,而是我们能够做到在大数据中智能识别,是我们的存储技术本身去识别数据的各个热度层级的变化,并主动地推送到业务端。让业务人员感受到他什么时候想用都是最快的”。
“这说明一个问题,那就是目前的存储系统的性能瓶颈还不是闪存介质本身,而是软件工程上的问题”,周震刚说:“这也意味着分布式闪存还有很大的发展空间,我们观察到的趋势是,如果分布式全闪算作一种先进存力,那么它越来越明显的开始从适配高性能、高需求的大场景,开始渗透向小集群、小场景,这就让基于全闪的分布式存储还有很高的天花板。”
郭照斌提及的另一个先进存力中心的重要特性,是良好的融合性。
“我们以前觉得用不上的数据太多,到现在觉得数据不够用,是因为智能化时代重新激发了存量数据的价值。但由此就带来一个问题,以前即使在同一个体系内,存储数据的方式也是烟囱式的、彼此不兼容的”,郭照斌说。
而曙光的先进存力中心创造了这样一种可能性,无论这些数据是对象协议访问的、跨协议方式的、文件方式的、块存储方式的,都可以自动、快速的完成数据汇聚,并且同时自动识别哪些是要近期访问的,哪些是需要长期冷存储的,“这样就不仅仅解决了汇聚的问题,而且把数据利用前的一切准备工作都加工好了,就好比以前提供的是食材,现在直接提供的是净菜。这样极大的降低了用户的负担,让数据的应用者更能把精力集中在发现、利用数据的价值上,而不用把太多精力放在数据本身的处理和存储上,这也是明显超越当前主流形态的新特性。”
当然,先进存力中心在性能、安全性和绿色属性上,还有许多内容需要展开。但限于文章篇幅,我们只选择最具代表性的两个特点。
而什么叫最具代表性,答案一定是——用户最普遍认为是痛点的。
03落地进行时我们前面说过,先进存力的概念很好,但先进存力中心的落地很难。
但是,最难的第一步已经走出了。
西部(重庆)科学城先进数据中心(以下简称“先进数据中心”)是东数西算工程成渝枢纽节点示范项目,也是全国一体化大数据中心的“协同创新体系示范工程”。
这个由中科曙光承建的数据中心,其实就是曙光版“先进存力中心”的落地样板。而且,因采用多种创新技术,使其成为东数西算项目中整体国产化率、绿色节能技术等位居前列的先进数据中心。
例如我们前面未及展开的“绿色”方面,重庆先进数据中心就采取了曙光独家的浸没式液冷技术、余热回收、绿色建筑等多种节能技术方案,不仅解决了散热,还可以充分的释放芯片的潜能。
“存算一体是近年来的一个新概念,它受到了人的大脑神经元既可以存储信息,又可以处理信息的启发,以此为灵感实现了存算一体化。虽然,这可能不是存算一体的终极方案,但也可以被称为是这一领域具有较强先进性的领先实践”,郭照斌说:“除了存算一体化,这里还包含有场景融合一体化、数据联邦一体化、生命周期一体化、数据服务一体化等多个一体化方案,目的仍然是让用户可以心无旁骛的把注意力集中在业务上,而较少甚至无感于‘存力’的存在”。
而把先进存力中心放在重庆,除了其地理位置要素外,和其产业集中度也有关系。例如,重庆有全国最大的汽车摩托车产业集群,而曙光在先进数据中心已经为国内一家新势力车企构建了一个超过100PB的底层存力平台,通过存力平台可以实现用户的自动驾驶业务数据的录入、预处理,以及仿真、分析业务的导出,提供全流程支持。
显然,先进存力中心不止有一种方案,但曙光提出的范式,越早落地,就越早有机会遇到现实的挑战和问题,也就有机会先于其他企业遇到这些问题和解决这些问题,而这又将反哺曙光的行业领先地位。
事实上,今年曙光存储可谓亮点频频,例如发布了全球首个亿级集中式存储、打榜xxx成功等等,但这一切,都不如站在重庆中心城区西部槽谷的高点,鸟瞰西部(重庆)科学城的全貌时,那样让人心潮起伏。
可以说,这个先进存力中心是中国企业级存储行业发展到今天的最新、最高水平的体现。从整体的体系性能力来说,它比最先进的集中式闪存、分布式闪存的单点产品突破还更有意义。
可以说,集中式、分布式闪存是目前最高光的两类存储产品,但产品如果不和具体的场景结合,就是无法落地的。而存力中心决定了存力的运用方式,让各种集中、分布式存储产品成为了构筑先进存力中心的基石。
这里,或许将会是中国存储出发赶超世界顶级存储产业的出发地。
中国企业级存储经过几十年的风雨,从追赶到PK,再到今天的局部领先。其中一个最大的背景,就是中国是全球最大的单一互联网国家(从网民数量级这个维度来看)。
这个庞大的体系和其中的千行百业,给了中国存储产业最好的发展沃土,加之中国目前已经成为全球唯二的人工智能创新策源地,可谓AI的浪头才刚刚兴起,大规模落地已是跃跃欲试。客观说,这种场景,放眼全球,可能只有美国和中国具备。而中国的产业规模、网民人口、设备数量、核心需求,都更大也更迫切。
可以想像,在中国在竞争全球AI高地的过程中,会和时代的需求互相奔赴,发展到一个引领全球应用范式的新境界。而存力作为其中的核心支撑,也会在顶级的需求的催迫下,走到一个新的高度。