近日,“腾讯云崩了”冲上热搜。多位网友反馈称腾讯云出现服务故障,网页显示504错误。
01
腾讯云突然崩了
4月14日,针对用户反馈的腾讯云控制台故障,腾讯云官方发布了复盘及情况说明。
经过故障定位发现,登录不上控制台是由云API异常所导致。而事故根本原因在于腾讯云版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,最终导致云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。
故障发生后,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。
腾讯云方面称,接下来将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力作出改进。
02
“云崩”并非个例
此次腾讯云发生的大范围故障,无疑在云服务行业内引起了广泛关注。一些行业人士甚至将其与2023年11月阿里云史诗级故障并称。
2023年11月12日晚间,阿里云发生故障,“阿里全系产品崩了”“淘宝又崩了”“闲鱼崩了”“钉钉崩了”“阿里云盘崩了”等话题相继登上热搜。
阿里云对此公告称,2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。经工程师紧急处理,21:11阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复。
近年来,因云服务问题导致应用程序“崩了”的现象频繁发生。对于故障背后的原因,网友戏称,“估计是裁的人太多,一不小心把真正干活的人给开了。”
或许有些片面,但也给云服务提供商敲响了警钟,要更加重视运维管理和技术风险控制,确保服务的稳定性和可靠性,不应因“降本增效”而忽视。
同时,我们也需要更加谨慎地选择云服务提供商,并加强自身的数据备份和安全管理措施,以应对可能出现的技术风险。
03
运营商能否“捡漏”
互联网大厂事故此起彼伏,对于同样能提供云服务的各大电信运营商来说,存在“捡漏”的可能性吗?
有,但不多。
客观来说,从技术的创新性和经营管理先进性这两方面看,当前运营商云在市场中并不占据显著优势。由于运营商云相对较晚进入市场,其水平无疑存在一定程度的滞后。
回到这次具体的事件,如果运营商云遇到了类似于阿里云、腾讯云那样的故障,其表现会更好吗?可能未必。
不过,虽然云市场份额争夺激烈,但这并不意味着完全没有机会。运营商的潜在的机会主要在于——安全。云服务作为关乎国家经济和社会民生的重要基础设施,其安全性与可控性至关重要。而作为云计算国家队,电信运营商在这方面拥有与生俱来的、独特的优势。
不能否认的一点是,握有“安全”这张王牌的移动云等运营商云,如今的增长势头完全压过了传统的互联网背景的云服务商。
当然,运营商若想在竞争激烈的云服务市场中谋求长久且健康的发展,还需求不断提升自身服务品质,拿出真正的实力来,提供更加的专业化和多样化服务。毕竟,机会只留给有准备的人。