9月10日,阿里云服务又宕机了。此次宕机的原因是,新加坡可用区 C 数据中心的机房发生了一场严重的火灾。火灾原因是锂电池爆炸,导致机房升温和燃烧。离谱的是,自10日早上8点到11日晚上8点,火灾持续了整整36小时,仍未完全扑灭。
根据阿里云发布的事件公告,火灾发生后,阿里云新加坡地域可用区 C 网络访问出现异常,部分云产品服务出现异常。其中云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute等关键服务受影响。
此次阿里云服务宕机再次引发了打工人的疯狂吐槽。
据官方消息,火灾发生后,阿里云按照产品调度策略,云数据库 Redis/MongoDB/RDS MySQL、对象存储 OSS、表格存储 OTS 、云原生大数据计算服务 MaxCompute 等已陆续完成容灾切换。但部分 OSS 对象存储、数据库等产品的单 AZ 版本,需待受影响物理机柜具备重新开机条件后恢复。
直到9月12日凌晨,阿里云官方客服回复称,新加坡区域大部分受到网络影响的云产品已恢复正常服务,剩余断电的机房业务仍需等待物理条件的恢复。如现场评估后不具备原地恢复的物理条件,应急小组将执行服务器设备迁移恢复预案。
此外据媒体报道,该数据中心不仅托管了阿里云和字节的服务器,还包括一些其他跨国公司的服务器。有用户报告称,Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现了宕机或服务降级,也与此次火灾有关。
在 Lazada 以及 TikTok Shop 等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop 的用户也透露,系统故障使得小黄车功能无法正常使用等。
最搞笑的是,AWS趁火打劫,疑似在社交平台上发帖宣传自家云服务产品,引发了不少网友评论:高端的商战有时候就是这么简单。
总的来说,作为中国云服务领域的头部厂商,阿里云声称其灾难恢复与故障转移程序已按预期运行,意味着高可用性云产品达到了承诺的服务水平,但表示部分用户仍须手动将工作负载从受火灾影响的可用区迁出。
数据中心火灾扑救难点数据中心的火灾扑救难点主要包括封闭空间、热量积累、用电量大和复杂的电气环境。为了确保网络安全中的物理安全,需要采取多层次的防护措施,包括访问控制、视频监控、环境监控和防灾设计等。同时,综合安全策略、员工培训、定期评估和演练以及安全文化建设也是确保物理安全的重要措施。
封闭空间数据中心通常采用封闭式空间设计,无窗或窗户不易开启,这使得火灾时热量和烟雾难以散发,导致火势迅速蔓延,增加了扑救的难度。封闭空间不仅阻碍了热量的散发,还可能导致有毒烟雾在室内积聚,对人员和设备造成严重威胁。
热量积累数据中心内部设备密集,发热量大,且由于密封环境,热量无法有效散发,导致室内温度迅速升高,增加了扑救的难度。高温环境不仅加剧了设备的损坏,还可能导致电气设备的绝缘性能下降,增加短路和火灾的风险。
用电量大数据中心用电量大,线路复杂,容易发生电气火灾。此外,线路老化和绝缘保护层破损也是常见的火灾原因。大量的电气设备和高负荷运行增加了电气系统的复杂性,任何一个电气故障都可能引发连锁反应,导致火灾迅速扩散。
复杂的电气环境数据中心内部线缆众多,布线复杂,电气火灾频发。电气火灾通常难以早期发现,且扑救难度大。电气环境的复杂性使得火灾预警和扑救变得更加困难,需要依赖先进的监控和灭火系统。
数据中心物理安全最佳实践多层防护体系建立多层防护体系是确保数据中心和网络设备安全的关键,包括物理屏障、访问控制、环境控制和访客管理等。多层防护体系可以有效防止未经授权的访问和破坏,减少火灾等安全事故的发生。
物理访问控制通过设置门禁系统、身份验证设备和访问记录日志,确保只有经过授权的人员才能进入重要的物理区域。严格的物理访问控制可以大大降低数据泄露和设备破坏的风险,是数据中心物理安全的基础。
视频监控环境安装高清摄像头和运动检测器,对数据中心内外的活动进行实时监控,及时发现可疑行为或安全威胁。视频监控系统不仅提高了安全性,还可以在事后进行审计和分析,优化安全策略。实施温湿度控制、水浸检测和火灾报警系统,避免自然灾害或设备故障对数据中心造成严重损害。环境监控系统可以及时发现和处理环境异常,防止因环境问题导致的设备故障和火灾。
综合安全策略将物理安全和网络安全纳入到整体安全计划中,确保它们相互协调。例如,安装监控摄像头时应考虑网络安全措施,如加密视频流和访问控制。综合安全策略可以确保物理安全和网络安全的有机结合,防止潜在的安全漏洞。
员工培训和意识加强员工培训和意识,教育他们如何识别和应对物理和网络安全威胁,使用强密码并定期更改密码。员工的意识和行为是网络安全的重要组成部分,通过培训可以提高他们的安全意识和应对能力。
定期安全评估和演练定期进行综合的安全评估和演练,发现潜在的物理和网络安全风险,并及时修复。通过定期的评估和演练,可以及时发现和解决安全隐患,提高应对突发事件的能力。
安全文化建设建立强大的安全文化,确保安全意识和责任感贯穿于整个组织,每个人都应该认识到安全是每个人的责任。安全文化是确保物理安全和网络安全的基础,只有每个员工都重视安全,才能有效降低安全风险。
注:资料来源于互联网
[墨镜]锂电池是重点
全世界天天吹嘘的锂电池就是这个样子滴!
大家一样受到了火灾的影晌,却只针对阿里云服务宕机,落井下石?
无所谓,只是烧的云,马还在
我的支付宝会不会紊乱
是裁员裁到大动脉了吗
36小时不能灭火,真的菜
新能源汽车保单高就是因为锂电池事故率远超油车
之付包的钱会不会这样消失
高价值产品应该考虑新型灭火方案,比如抽真空,沙埋,等等可能解决问题的方案。
9.9大促虾皮订单火了,阿里订单没火,但是机房火了[得瑟]
难怪这天手机上网有点卡
CIA派间谍干的
阿里坚持住
风墙机组是不是和这云服务配套用的
要小心美国间谍
[笑着哭]其他的数据倒是不重要,那么多支付宝账号数据压根就不该给民营保管,将来丢失了怎么办哦?不过给国家管出问题一样没得陪,还是霸王条款
花呗是不是不用还了?[笑着哭]
[思考][思考]不应该是沉到海底散热吗?
aws更菜
建到国外去了,老外真没有政府安全意识?
学学微软 把服务器 都扔海底
我不禁要问云真的安全吗?
我的支付宝是不是不用还了,是不是还没烧到地方[得瑟]
锂电池一着火就没得救
也可以搞破坏啊
用锂电确实有钱,锂电池烧起来基本你得等它烧完了,看看电车自燃有几个灭掉的
不能在中国建服务器吗
CAI偷硬盘,007都这么演的
国内放不下?
这么重要 东西 不搞自动消防设施
一场火灾带来问题大了,阿里就是不争气啊!
机房用锂电池就是留个最不安全因素,铝镁合金都能烧化了。
喷锂电池的赶紧喷
没有温控预警的吗?
我余额宝一千万的零花钱,没事吧。我得赶紧去看看
还是放海里降温安全[吃瓜]
刚在巴黎奥运露个头!现在就出事啦!
不是一哭二闹三上悠亚吗?
这种机房没有气体灭火?
不要用锂电池,不要用锂电池,那么贵重的服务端口。
我说怎么有的评论不显示
服务器建国外,一直不用淘宝支付宝,才是明智的选择
阿里终究还是要嘎[汗]
电池着火只能等着烧完
阿里多事之秋
犹太人的干儿子,太坏
硬盘要涨价了![得瑟]
人为的哈哈哈具体就不说了[得瑟][得瑟]
这种火灾用水灭火?什么智商?[单身狗]