
通过对比SSD和硬盘的故障率,揭示了两者在不同使用阶段的可靠性差异。

固态硬盘(SSD)正在成为数据存储领域的重要一员。虽然我们曾在SSD 101系列中探讨过如何升级、故障排除和回收SSD等话题,但今天我们要检验一个SSD支持者常提的观点:SSD比传统硬盘(HDD)更不容易出现故障。这个观点通常归因于SSD没有机械零件,同时也受到厂商宣传和模糊的“平均无故障时间”(MTBF)数据的支持。对于SSD的营销来说,这一切似乎都没问题,但要真正比较SSD与HDD的故障率,我们更倾向于通过直接对比来得出结论。让我们开始吧。
SSD和HDD的故障表现是怎样的?
在我们的季度《Drive Stats》报告中,我们将硬盘故障定义为“被动故障”,即硬盘完全无法使用,或“主动故障”,即硬盘即将发生故障。对于硬盘,我们判断故障是否即将发生主要依靠硬盘报告的SMART数据(自我监控、分析和报告技术)。SMART系统是硬盘和SSD中都包含的一项监控功能,旨在通过监测多个指标来预测硬盘或SSD的故障。Backblaze每天都会记录每个正在使用的硬盘和SSD的SMART属性。
与HDD一样,我们也记录并监控SSD的SMART数据。不同的SSD型号报告不同的SMART数据,有一些属性是重叠的。到目前为止,我们已经记录了31项与SSD相关的SMART数据属性,其中有25项列在下方。
但我们无法找到剩余六项(16, 17, 168, 170, 218, 和245)的定义。如果你能提供一些线索,欢迎在评论区分享。
尽管如此,利用SMART数据来预测SSD故障的工作才刚刚开始。许多列出的属性都取决于硬盘型号或厂商。此外,正如你所看到的,SSD故障数量较少,这也限制了我们研究的数据量。随着我们监控的SSD数量逐渐增多,我们会进一步完善预测SSD故障的规则。目前为止,所有失败的SSD都是被动故障,即它们直接停止工作。
苹果对比苹果
在Backblaze的数据中心,我们同时使用SSD和HDD作为存储服务器的启动驱动器。实际上,称它们为启动驱动器并不完全准确,因为这些驱动器不仅用来启动服务器,还用于存储日志文件、系统访问记录、诊断信息等。换句话说,这些启动驱动器除了启动服务器外,还经常进行读取、写入和删除操作。
在最初的存储服务器中,我们使用硬盘作为启动驱动器,因为它们便宜且能满足需求。直到2018年中,我们能够以大约50美元的价格购买到200GB的SSD,这时SSD成为了我们为每台存储服务器提供启动驱动器的主要选择。这个决定成为了实验,但结果非常成功。从2018年中期开始,我们的所有新存储服务器都只使用SSD,并且将故障的HDD启动驱动器也换成了SSD。
我们现在有两组驱动器,SSD和HDD,它们执行相同的功能,承担相同的工作负载,并在相同的环境中工作。所以我们决定对比SSD和HDD启动驱动器的故障率。以下是截至2021年第二季度,SSD和HDD的生命周期故障率。

SSD胜出……等等,别太快下结论!
从数据来看,似乎SSD的表现更好。你可能会认为,是时候把硬盘变成书挡或者门挡,去买SSD了。不过,在你开始“清理”硬盘之前,还有几个问题需要考虑:驱动器的平均年龄和驱动器工作天数。
SSD驱动器的平均年龄为14.2个月,而HDD驱动器的平均年龄为52.4个月。SSD中最老的驱动器大约33个月,而最年轻的HDD驱动器也已经27个月。
简单来说,SSD和HDD的平均年龄差距很大。HDD的平均年龄比SSD大三年多,这意味着它们处于生命周期的不同阶段。如果你认为硬盘会随着年龄增长而更容易出故障,那么你或许应该稍等一下再开始“清理”你的HDD。
顺便说一句,我们将在接下来的几周内发布一篇关于驱动器故障率是否符合“浴缸曲线”的文章,剧透一下:老旧驱动器的故障率确实非常高。
另外,我们还考虑了“驱动器工作天数”这一因素,这指的是每组驱动器在未发生故障的情况下,累计的工作天数。两组驱动器的工作天数差异非常大,这使得两组数据的置信区间有很大不同。
为了做出更准确的对比,我们可以通过回溯HDD的数据,找到与SSD在2021年第二季度的平均年龄和工作天数相似的数据。这可以帮助我们更公正地比较两组驱动器。
回溯HDD数据到2016年第四季度后,我们得出了如下对比:

这时,SSD和HDD之间的年化故障率(AFR)差异并没有那么显著。事实上,每种驱动器的故障率都在对方95%置信区间内。这个区间相对较宽(上下浮动0.5%),因为驱动器的工作天数较少。
那么,这到底说明了什么呢?我们发现,当两种驱动器都还年轻(平均约14个月)时,SSD的故障率确实低一些,但差异并不大。但你买驱动器可不是为了让它用14个月,你希望它能用几年。那么,长期使用下它们的表现如何呢?
长期故障率
我们有自2013年以来的HDD启动驱动器数据,还有自2018年以来的SSD启动驱动器数据。下图显示了每种驱动器类型截至2021年第二季度的生命周期年化故障率(AFR)。

从图表来看,自2018年起,HDD启动驱动器的故障率加速上升,2019年和2020年持续攀升,直到2021年开始趋于平稳。显然,随着HDD启动驱动器的使用年限增加,故障率也随之上升。
一个值得注意的点是,前四个数据点中,SSD和HDD的曲线非常相似。对于HDD组,故障率的加速出现在第五年(2018年)。那么,SSD随着时间推移是否也会经历相似的命运呢?虽然我们可以预见SSD的故障率会随着年龄增加而上升,但它是否会像HDD那样迅速增加呢?
该选SSD还是HDD?
那么,基于目前的了解,我们该如何选择SSD还是HDD呢?将故障率作为决定因素来看,似乎并不完全可靠。一旦我们控制了驱动器的平均年龄和工作天数,发现两者之间的差异并不大,这种差异远不足以单独支撑购买SSD而非HDD的决定。目前,考虑其他因素,如成本、所需速度、电力消耗和外形要求,可能是更理智的选择。
随着我们对SSD故障率了解的逐步深入,未来我们会决定是否将故障率加入SSD与HDD购买指南中。在此之前,SSD和HDD的“辩论”还会继续。
本文译自 backblaze,由BALI编辑发布。