去年10月我们评测了忆恒创源的国产满血企业级PCIe 5.0 SSD——PBlaze7 7940。数字到了9就被认为是极限,14GB/s也是PCIe 5.0接口的满血速度,而今年“小海豚”忆恒创源百尺竿头更进一步,PBlaze7 7A40将全国产与极致性能推到了全新的高度。
在计算机常用的16进制表达中,排在9后面的就是A。忆恒创源PBlaze7 7A40使用平头哥镇岳510 主控和长江存储Xtacking 3D TLC NAND闪存,实现了产品的全国产化,并在延续14GB/s满血读取能力的同时,将4K随机读取性能从PBlaze7 7940的2800K IOPS进一步提升到3300K IOPS,4K随机写性能则提升至1000K IOPS,也是目前基于TLC NAND,首个稳态下4K随机写性能突破百万IOPS的产品。
镇岳510是阿里巴巴平头哥去年宣布的首款企业级SSD主控芯片,内置玄铁910 RISC-V多核CPU,采用平头哥自研芯片架构,支持DDR5 DRAM缓存,主机接口采用PCIe 5.0标准,关键数据通路与命令通路大量采用定制硬件模块加速,实现高性能和低功耗。
PBlaze7 7A40是镇岳510在阿里云内部使用后,首个采用该主控的第三方企业级SSD。得益于平头哥深厚的芯片研发功底,忆恒创源MUFP自主统一架构平台优势,以及双方紧密的技术配合,从产品立项到完成产品开发,PBlaze7 7A40只用了5个季度,是忆恒创源开发速度最快的产品。
长江存储eTLC闪存基于晶栈®Xtacking®架构,具备高性能、高耐久、低延迟、低功耗的特性。PBlaze7 7A40利用平头哥主控架构优势,通过优化I/O路径、精简处理流程和优化数据排布,大幅提高NAND的读写效率,将4K随机读取延迟降低至55μs,4K随机写入延迟更是低至5μs。
PBlaze7 7A40系列包括读取密集型的7A40和混合型的7A46,分别提供1 DWPD和3 DWPD写入耐久度。前面提到的百万IOPS随机写正是6.4TB容量点。本次我们评测的是PBlaze7 7A40 7.68TB,但后面也会通过调整命名空间至6.4TB来模拟PBlaze7 7A46 6.4TB的性能。
测试平台和产品信息展示
测试平台:
CPU:AMD Ryzen 7 7800X3D
主板:技嘉X670 AORUS ELITE AX
内存:金士顿DDR5-6000 16GB *2
SSD:Plextor M6Pro 128GB(系统盘)
忆恒创源PBlaze7 7A40 7.68TB
OS:Ubuntu 22.04 LTS
通过smartmontools工具可以查看SSD的一些基本信息,这次测试的忆恒创源PBlaze7 7A40用户可用容量7.68TB,提供3个固件插槽,其中Slot 1为只读属性,支持在线固件升级,默认电源状态最大功耗25W。
OP(预留空间)大小可以影响到SSD的4K随机写性能和随机写寿命。下图是通过nvme-cli工具将用户的可用容量从7.68TB下调至6.4TB,从而模拟PBlaze7 7A46 6.4TB,SSD的4K随机写性能将从500K IOPS翻倍提升至1000K IOPS,写寿命上升至3 DWPD。
理论性能测试
1.GFIO测试:4K随机写入511K IOPS,4K随机读取3337K IOPS
GFIO为功能强大的fio提供了一个图形化界面,不过配置文件还是需要提前动手写好,然后在GFIO中加载。GFIO会每秒刷新显示测试过程中的传输带宽和IOPS数值。测试开始前需要先对SSD进行预处理,首先格式化SSD,顺序填盘2次,128KB顺序读QD1性能,由于PBlaze7 7A40支持预读功能,当SSD检测到当前读取的逻辑地址连续,SSD会提前加载后面逻辑地址包含的数据,大幅缩短读延迟,并极大优化小压力下的顺序读取性能。本环节PBlaze7 7A40在QD1顺序读压力下表现出了超过5.8GB/s的读性能,非常强悍。
随机性能方面,首先格式化SSD,使用128KB QD512参数顺序写入全盘1次,再使用4K Q64T8参数随机写全盘3小时,可以看到稳态下PBlaze7 7A40 7.68TB的测试成绩为509K IOPS。
4K随机读取测试使用Q256T16参数进行,稳态下PBlaze7 7A40 7.68TB的测试成绩为3337K IOPS。三星PM1743的4K随机读取性能为2500K IOPS,而忆恒创源上一代PBlaze7 7940就达到了2800K IOPS的水平,本次测试的PBlaze7 7A40更是实现了3300K IOPS的4K随机读性能,这样的提升幅度可谓惊人。
2.ezfio测试:随机读3217K IOPS,6.4TB随机写突破1000K IOPS
ezFIO是一个可重复进行企业级SSD稳态性能测试的脚本。在测试开始前会有两次全盘容量写入的预处理阶段,帮助模拟企业级SSD的长期性能。ezFIO同时支持Windows和Linux平台,测试完成后可自动生成测试报告。
为了满足PBlaze7 7A40的测试需求,我们再次修改了ezFIO测试脚本,将QD深度从512进一步扩展到1024,以充分体现Pblaze7 7A40的性能潜力。实测忆恒创源PBlaze7 7A40 7.68TB在稳态下4K随机读取IOPS达到3217K IOPS(标称值3300K需要更高的QD深度),4K随机写入IOPS达到505K IOPS。在QD=1的情况下,4K随机读取/写入延迟分别为55/5 μs,表现出色。
不同Block Size下稳态顺序/随机读写测试,其中顺序读取速度达到14310 MB/s,实现了PCIe 5.0 x4接口下的满速读取。
混合读写相比纯读纯写对SSD的压力更高,也更能体现SSD在实际使用中的表现。测试使用4K QD1024混合随机读写(读写比70:30)进行,PBlaze7 7A40 7.68TB的表现非常出色,稳态4K混合随机读写平均IOPS达到976986,标准差13425,变异系数1.37%。
接下来通过删除并新建namespace的方法将PBlaze7 7A40从7.68TB调整为6.4TB,模拟PBlaze7 7A46 6.4TB的表现。可以看到稳态下4K随机读取IOPS依然达到3217K IOPS(标称值3300K需要更高的QD深度)。稳态4K随机写入IOPS则提升至1000K IOPS。在QD=1的情况下,4K随机读取/写入延迟分别为55/5 μs。
不同Block Size下稳态顺序/随机读写测试,读取部分变化不大,写入性能有提升。
OP至6.4TB后,稳态4K混合随机读写平均IOPS达到1497324,标准差19281,变异系数1.29%,混合读写性能相比之前又有大幅提升。
忆恒创源PBlaze7 7A40 7.68TB稳态4K混合随机读写百位分延迟表现:
OP至6.4TB后的稳态4K混合随机读写百分位延迟:
3.SNIA SSS PTS-E 2.0测试
SSS PTS的全称为Solid State Storage Performance Test Specification,即固态存储性能测试规范,它由SNIA存储网络行业协会制定,当前最新版本是2.0,包括针对企业级SSD的PTS-E规范以及针对消费级SSD的PTS-C规范。
通常,基于NAND闪存的SSD在FOB(Fresh-Out-of-the-Box)阶段以及格式化之后,由于NAND中并没有有效的用户数据填充,因此在写入时并不需要执行垃圾回收动作,致使SSD性能偏高。随着SSD的继续使用,NAND会逐渐被有效的用户数据和无效数据填满,致使在新的写入操作发生时,需先执行GC,导致SSD写性能下降并最终达到一个稳定状态。
PTS是针对SSD稳态性能的测试,为了方便不同SSD的稳态性能具有可比性,要求测试在没有文件系统干扰的情况下进行,通俗的说就是SSD在没有建立FAT、NTFS、EXT等分区的情况下进行。
为了使SSD达到稳态,PTS测试需要先执行预处理,也就是我们常说的“填盘”,随后执行最多25轮的一系列随机混合读写操作,包括512字节、4K、8K、16K、32K、64K、128K和1024K块大小,每个块大小又分别对应0/100、5/95、35/65、50/50、65/35、95/5和100/0七种不同的读写比例,共56个测试项目,每个测试项目执行1分钟,每一轮测试耗时56分钟。
稳态的判定方式为:检查测试窗口中的4K随机写入、64K R65:W35混合随机读写和1024K随机读三项成绩,允许波动范围+-10%,如连续5轮均符合要求,则判定SSD已经进入稳态。
SSS PTS测试结果需摘取稳态下所有56个测试项目的性能结果,并根据需要,用数据表格、2D或3D图示三种形式进行展现。为压榨PBlaze7 7A40的性能,本次测试使用了16个任务数量,每个任务QD为256,测试结果见下面表格:
通过调整用户容量为6.4TB,模拟PBlaze7 7A46的性能表现,可以看到,稳态下,SSD的随机写和混合读写性能提升明显。
模拟实际应用测试:
VDBench测试:PCIe 5.0百尺竿头更进一步
VDBench是甲骨文推出的存储性能评估工具,能够支持去重和压缩等特性。我们将使用它来测试4KB混合读写(读70%写30%),并模拟Oracle数据库、VSI、VDI三种企业级应用负载。
4KB混合随机读写测试,忆恒创源PBlaze7 7A40 7.68TB获得979K IOPS的出色成绩。在OP至6.4TB容量后,性能进一步提升至1501K IOPS,能够胜任更加繁重的工作负载。
Oracle、VDI、VSI三个模拟企业级应用的测试模型相对复杂,对SSD性能要求也比较高。其中,Oracle测试数据模型中读写占比分别为83.14%和16.86%,在读和写操作中,不同BS块大小又各自对应不同的占比。测试时使用Dedupratio=3,Compratio=3参数,最终,PBlaze7 7A40 7.68TB在Oracle测试环节表现出了123815 IOPS的性能,OP至6.4TB后则进一步提升至170740 IOPS,性能出众。
Virtual Desktop Infrastructure测试数据模型中,读写混合比例为59.48:40.52。4K、16K、32K和64K读取分别占比39.35%、16.47%、10.37%和12.86%,随机存取占比80%。4K和8K写入分别占比61.11%和13.05%,随机存取占比80%。Dedupratio=7,Compratio=8。此环节PBlaze7 7A40 7.68TB的峰值IOPS达到93952,OP至6.4TB后峰值IOPS则提升至152942,表现令人满意。
Virtual Storage Infrastructure测试数据模型中,读写混合比例为57.4:42.6。4K、8K、60K读取占比分别为25.68%、26.31%和10.52%,随机存取占比80%。4K和8K随机写入占比分别为59.62%和14.81%,随机存取占比80%。此环节PBlaze7 7A40 7.68TB的峰值IOPS达到64978,OP至6.4TB后峰值IOPS则提升至106707,满足多样化工作负载和应用对存储性能的需求。
能效测试
每瓦性能的提升也是PBlaze7 7A40的进步之一。我们目前缺少直接测量U.2接口固态硬盘功耗的手段,但忆恒创源在nvme-cli开源工具中提供的插件,可以帮助我们获取更多标准SMART项之外的信息,包括闪存磨损信息、主机和闪存写入量、全生命周期写入放大率、温度(当前、历史最低、历史最高),以及本次我们要用到的功耗信息(最低/最高/实时)。
顺序写入测试中,实时功耗19W:
顺序读取测试中,实时功耗13瓦:
4K随机写入测试中,实时功耗18瓦:
4K随机读取测试中,实时功耗16瓦:
作为参考,目前使用16通道主控的高性能企业级SSD,即便是PCIe 4.0产品,功耗也普遍在20W以上;以低功耗著称的小海豚自家PBlaze6 6530(8通道主控、6.8GB/s读和4.8GB/s写),典型功耗也要11到12W。可以说,相较于以往产品,PBlaze7 7A40在实现性能翻倍的同时,功耗不升反降,甚至远低于其它同类PCIe 5.0 SSD产品,足见其能效比之高。而更低的SSD功耗,也将在多盘密集部署下,显著降低对服务器散热的影响。
总结
一年前忆恒创源推出的首款PCIe 5.0 SSD PBlaze7 7940现在已经取得了15万片的销量规模,累计总容量超过1000PB,足见AI等应用对于高性能SSD的迫切渴求。而这一过程中,PBlaze7 7940的品质也被市场充分验证,忆恒创源也成为率先实现PCIe 5.0 SSD批量部署的国产品牌。
致力于闪存技术持续突破的忆恒创源今年推出的PBlaze7 7A40实现了企业级SSD的全国产化:平头哥镇岳510主控搭配长江存储Xtacking 3D TLC NAND闪存。在硬件架构和自研固件的深度优化下,PBlaze7 7A40百尺竿头更进一步4K随机读取达到了3300K IOPS的全新性能高度,是主流PCIe 4.0 SSD的3倍。能效比方面,同主流PCIe 4.0 SSD相比,PBlaze7 7A40每瓦4K随机读取性能提升110%,每瓦4K随机写性能提升73%,以卓越性能和卓越能效比继续引领着企业级PCIe 5.0 SSD的发展方向。
不论是先前的率先实现规模部署,率先实现10GB/s顺序写性能,还是今天PBlaze7 7A40再次将性能和能效比提升到了前所未有的新高度,都足以证明国产SSD已经完全不输国际品牌产品,更让我们有理由相信,国产闪存必将崛起,重塑市场格局,引领国际闪存存储市场新的潮流!