CrowdStrike宕机事件后:CIO们需重新评估云集中的风险

商有精准说 2024-07-27 03:37:57

全球范围内的CrowdStrike宕机事件显示了当IT运营依赖单一供应商时所面临的风险。重新考虑你企业的云集中风险容忍度,并制定相应的策略。

上周CrowdStrike有缺陷的内容更新影响了数百万Microsoft Windows终端,恢复工作可以说是一项重大任务。

这次中断将企业、云服务提供商和关键基础设施提供商置于危险境地,并引起了人们对CrowdStrike市场份额主导地位的关注,据估计,其占据了端点检测和响应(EDR)市场的24%。

这一领先地位和持续推动的平台化数据安全方法是CrowdStrike入选CSO十大最强网络安全公司名单的主要原因,但此次中断事件也引发了对企业云战略的质疑,并重新引发了对过度授权软件的讨论,因为IT领导者在灾难性事件中寻找经验教训。

这也突显了集中风险的弊端。

什么是集中风险?

CrowdStrike被业界许多人认为是EDR和反恶意软件保护市场中的“金标准”,其Falcon解决方案在每个终端设备上部署一个代理程序,持续监控并响应勒索软件和恶意软件等网络威胁,这种基于代理的方法以及CrowdStrike快速响应内容验证过程中存在的缺陷,是许多企业不得不解决的蓝屏死机(BSOD)问题的核心原因。

随着企业将系统重新上线,IT领导团队必然会面临有关其受影响程度以及真正暴露在这类事件中的问题。尽管近年来努力增加弹性,但在CrowdStrike事件后,所有人都将感到比以前更脆弱。

展望未来,IT领导者必须更加关注“集中风险”以及如何更好地管理这些供应链风险。

正如金融行为监管局(FCA)所指出的,集中风险定义为:“由企业与单一客户或一组关联客户之间的关系强度或范围所带来的风险,或直接暴露于单一客户或一组关联客户的风险。”

用通俗的话来说,这就像把所有的鸡蛋放在一个篮子里。我们应该预期这个简单的定义会被应用,并且会受到监管机构的关注。我这么说是因为我最近与其他CISO和监管机构进行了会面,他们表达了对集中风险日益增加的担忧。

即将出台的监管措施

监管机构会注意到所谓的“全球最大IT中断”,并且他们将面临采取措施防止类似情况再次发生的压力。一旦尘埃落定,我预计不断增加的云集中风险将成为重要目标。

大多数企业在向公有云迁移的过程中不断取得进展,多个大型机构采用了“云优先”的口号,这些转型通常从单一云提供商开始,并逐渐根据具体用例和数据主权要求引入额外的云提供商。

云集中风险现在出现在这些企业依赖单一云服务提供商(CSP)满足所有关键业务需求时。在这种情况下,企业不再依赖自己的数据中心,而是将所有数据存储、所有应用运行在单一的云基础设施上。

当出现像CrowdStrike中断这样单一的事件时,云集中风险就完全显现出来,这种情况会使企业的整个运营陷入瘫痪。随着企业越来越依赖相同的应用程序和云提供商,这种情况在大规模上可能是灾难性的,正如我们在CrowdStrike事件中所见,这种情景还扩展到安全漏洞和其他可能对国家和行业产生系统性影响的事件。

来自UNSW网络研究所(IFCYBER)的Matt Ryan博士解释说,“在重大技术中断事件期间,大型金融机构将发现很难简单地从一个云服务提供商转向另一个,因为建立这种弹性的成本对于大多数商业企业来说实在太高。”

尽管如此,我们必须采取行动。

采用多云战略

为了避免云集中风险的危险,采用多云战略至关重要,在这种战略下,业务工作负载分布在多个云提供商之间。多云战略的实施意味着当一个提供商出现问题时,你在其他云中的运营可以继续运行。

另一种选择是采用混合云方法,结合私有云和公有云,这使你能够更好地控制专有和敏感数据,同时仍然享受公有云的可扩展性。

但是,无论是多云还是混合云,这两种方法都会带来更多的复杂性和挑战,如果管理不当,可能会影响弹性。不幸的是,多供应商的复杂性可能导致事件和新的风险,包括云配置错误和故障排除的困难。

对于CIO来说,这些方法增加了供应商的复杂性,需要跨不同的服务级别协议(SLA)和支持流程进行管理。FinOps将需要实施,以管理多云环境中各个云提供商的成本以及合同。内部来说,CIO必须管理这些云供应商的安全策略,以及云提供商自身使用的任何第三方。

你的集中风险容忍度是多少?

展望未来,了解你们企业可接受的集中风险水平将是一个关键问题。董事会将希望管理团队衡量这一风险,以便定义他们的容忍度应是什么。

云安全联盟(Cloud Security Alliance)对此有一些好的见解,它推荐了一些方法来开发将风险容忍度评估、数据/资产分类和业务需求转化为公司政策、控制目标和技术控制的流程。

我建议的方法是首先识别并记录所有对业务至关重要的操作。一旦这些操作被定义,技术团队就可以开始识别支持这些操作的所有基础技术组件和供应商。在这个阶段,企业可以开始测试和识别可能需要进一步处理或冗余的单点故障。

0 阅读:0

商有精准说

简介:感谢大家的关注