自1984年Richard Stallman创立自由软件基金会,并写下著名的GNU宣言,在计算机领域,开源一直都是一股清流。就如同人类一直努力追求的世界大同一样,软件行业也希望通过开源,营造一个开放、大同的技术环境——我为人人,人人为我。
如今,世界大同依然遥不可及,开源这种过于理想化的“出厂设定”也注定“拧巴”。俄乌冲突发生后,全球最大的独立开源软件公司SUSE、美国开源软件巨头Redhat、主流开源容器引擎Docker,纷纷宣布停止与俄罗斯的业务。美国商务部工业和安全局(BIS)也明确表示:“未经审批禁止向中国分享安全漏洞”。
原来,开源软件虽然是公开的,但开源软件也是有“立场”的,注定无法做到“我为人人,人人为我”。正如360创始人周鸿祎在社交平台上所说:“如果开源软件有了立场,我们将直面‘平时被控、战时被瘫’的现实风险。”
不仅如此,正因为开源软件的开放、自由,良莠不齐的开发者或出于疏忽大意、或出于能力不足、或出于不可告人的目的,造成开源软件的漏洞风险持续加剧。美国Synopsys公司发布的《2023年开源安全和风险分析》报告显示,绝大多数代码库(84%)至少包含一个已知的开源漏洞,较2022年调查结果增加了近4%。
即便如此,依然有很多厂商出于商业利益,将不可控的开源软件内核加以包装,冠以自主创新的名义向客户兜售,对潜在的安全风险却只字不提。尤其在存储领域,Ceph、Swift、Lustre等国外开源技术在中国市场的普及,让许多存储企业都看到了潜在的“市场机会”。
而那些被蒙在鼓里的企业客户,也在不知不觉间将数据“大厦”建在了松软的不可控的开源存储“沙滩”上;一旦被恶意组织盯上,就可以轻松从根部动摇整座大厦,给企业核心数据资产带来致命风险。
数据如此重要,怎能轻易把命运交给别人?
数字经济的蓬勃发展,既带来了数据的爆发式增长,也带来了前所未有的存储需求。有数据显示,到2025年,全球数据的总数据量和实时数据量分别高达175ZB和50ZB,其中,中国整体数据量到2025年将达到48.6ZB,占全球数据圈规模的27.8%。
数据作为新的、关键的生产要素,更是企业的“基础性资源”和“战略性资源”。与其他生产要素相比,数据不仅是企业经验和实践的积累,可以帮助企业更好地开展产品、技术和业务流程的创新;也是企业洞察市场和客户需求变化的关键,从而指导企业的生产、销售和服务。
如今,数据的快速增长,正在让数据存储、数据价值挖掘的重要性日益凸显。由于数据的价值挖掘以存储为前提,需求巨大,而存储的实际供给水平却很有限。数据显示,到2025年,我国将有超过420EB的存储缺口亟待补充。
对于企业来说,要将数据进行妥善、安全地存储,就需要持续提升数据存储的综合能力,即数据存力。存力作为数据基础设施的核心组成部分,是信息的起点和终点,优质的数据基础设施将有效助力数据价值的释放。但在提升数据存力过程中,如何保障数据安全也变得越来越重要。
众所周知,存储是海量数据汇集和储存的中转站,也是数据的最关键载体和最后一道防线。因此,企业要更好地守护数据安全,管好、用好数据资产,就必须采用安全可控的存储产品。
开源存储在推动存储技术和产品创新发展的同时,也继承了开源技术的漏洞和风险。今年两会期间,有专家提案指出:“国内广泛使用国外开源存储软件,存储主要开源社区、多数开源软件主导权均在美国,通过停止分享安全漏洞、关闭开源社区访问权限、修改开源许可协议、植入恶意代码等方式,可以进行精准打击,危害国家数据安全。”
看上去很美的开源存储,究竟有哪些隐患?
如今,在数据存储产业,由于我国在存储等相关领域的历史积累和创新投入较少,市面上有一定比例的存储产品依赖Ceph、Swift、Lustre等开源软件,其中,Ceph作为软件定义存储开源项目的领头羊,在市场上的知名度和曝光度都很高。
目前,包括传统ICT大厂的L厂商,以及初创企业X公司等,都在基于Ceph进行开发与二次开发的方式,快速搭建自己的存储产品或服务。尤其像L厂商、X公司这样研发投入较少,社区贡献度却很高的存储企业,大概率是基于Ceph的开源存储。
早年间,这些企业对开源软件存在的安全隐患心知肚明,并不敢大张旗鼓地宣称自己的技术内核;久而久之,随着客户对开源技术接受程度的提高,这些企业开始转而强调Ceph的优势,对其潜在的风险却三缄其口。
或许有人会说,既然Ceph的优势明显,这些基于Ceph开发的存储产品和服务是不是也很不错?殊不知,Ceph存在的潜在风险,只是让这类开源存储产品或服务看上去很美罢了。事实上,数据安全要牢固树立底线思维,“未料胜先料败”,如果只是贪图Ceph的优势,而对其潜在风险视而不见,最后带来的后果往往难以承受。
首先,Ceph自身被攻击风险较高。根据开源分布式存储系统Ceph官网数据,2016年以来,国际最权威的漏洞披露社区CVE官网已公开的严重级别漏洞高达49个,而Ceph官网显示已修复漏洞仅31个。从这些已公开的漏洞可以看出,Ceph自身可能在数据机密性、访问控制、软件级运行安全等方面存在缺陷,导致数据丢失及服务不可用等问题。
在这种情况下,那些基于Ceph开发的存储设备厂商,受限于Ceph社区的信息披露与漏洞修补,其产品很可能还保留着众多未修复的漏洞,给勒索软件攻击提供便利。与对单个端点或服务器的网络攻击不同,一个存储阵列的漏洞可能导致数千台服务器停机,并清除数PB的数据。在勒索软件攻击日益猖獗的今天,这样的开源存储无疑是一个“定时炸弹”。
其次,Ceph漏洞知情量不可控。根据美国BIS发布的公告,中国对漏洞风险的披露必须经过美国审核,美国组织/社区禁止向中国披露漏洞。在这种情况下,使用基于Ceph的开源存储,很可能会遭遇“数据裸奔”的情况。因为开源存储的漏洞信息我国无法获取,而战略竞争对手美国则对这些漏洞一清二楚。
第三,Ceph无法持续演进的可能性大。去年10月,Red Hat开始将其存储产品组合和相关团队转移到 IBM 旗下,而Red Hat作为Ceph开源社区代码贡献最多的贡献者,其更新迭代必然也会受到美国出口管控。这样一来,基于Ceph开发的开源存储极有可能面临无法获得后续更新迭代的风险,给将来的服务/工具更新、平台演进,甚至国家关键技术的发展带来极高威胁。
如今,不少流于市场的存储软件、数据库软件、OS软件都被美国所把持,其中,80%开源软件受美国控制。除芯片外,随着开源软件、漏洞信息纳入美国出口管制条例,这类开源软件也将成为美国实施打压的又一武器。这柄悬在中国企业头顶上的达摩利斯之剑,一旦落下,全数据业务系统都可能随时面临断供。
拒绝焦虑,如何构筑数据存储的铜墙铁壁?
正如奥地利作家茨威格所说:“所有命运馈赠的礼物,都已在暗中标好了价格。”既然以Ceph为代表的开源分布式存储存在这样或那样的风险,那么,如何应对由此带来的挑战、扎好数字经济坚实的壁垒,是所有企业需要深思的问题。
今年两会上,有专家表示:“我国要有独立的存储产业‘强链补链’规划,构建存储产业生态体系和产业链,并加速自主创新能力提升、国芯国魂产品应用,实现真正自主可控。同时,构建存储标准体系,制定存储系列标准,牵引国产存储产业高质量发展。”
这个观点掷地有声。近年来,在科技强国战略指引下,我国正在从政策上牵引并提升存储系统软件的自主能力,确保关键基础设施的底座安全稳定运行。对此,专家也在两会提案中建议,一是在国家重点研发计划中设立存储专项,为促进存储产学研用创新创造条件并提供资金支持,解决“卡脖子”问题;二是成立存储国家实验室、国家级科创平台等,提升原创技术研究能力、科研转化能力。
不过,从政策牵引到政产学研用紧密联合,再到开展“卡脖子”技术攻关和创新技术研发,通常需要一个漫长的过程。若想在短时间切实提升数据存储的安全性,就要优先存储开源治理,做到应替就替和能替就替。即以标准和建设牵引,增加治理机制,如颁发存储设备安全测试作为门槛、建立开源漏洞共享平台和通报机制、对应用于关键现网设备的全面筛查等,不过,要做到这一点,需要国家监管部门对存储产业的有效治理进行顶层设计与政策导向,促进全产业齐心协力协同。
不仅如此,国家还应大力支持我国开源软件产业的自主研发工作,建立起可靠的开源软件供应链,推动国内开源社区建设。通过制定开源软件管理规则、完善开源代码托管平台、明确开源软件安全检测方法等一系列措施,引导软件供应商掌握核心代码,提高产品安全能力,打造可信、安全和高效的开源软件,实现产品的可信安全。
对于国内存储厂商来说,同样需要在自主创新、自研可控上加大投入,在存储软件的开发、维护等活动中做好安全需求分析、安全设计、安全编码、安全测试、漏洞修补等工作,真正做到清本溯源,杜绝饮鸩止渴。
实践反复告诉我们,关键核心技术是要不来、买不来、讨不来的,先进的存储技术和产品同样也是如此。顺应这一趋势,我国已经有真正下足工夫、坚持自主可控的存储厂商,正在集中力量推进关键核心技术的创新与突破。在它们勇立潮头的身影里,我们相信,终有一天,在核心数据资产与关键基础设施的领域上,阴霾已过,万里放晴。