本文内容非商业用途可无需授权转载,请务必注明作者、微博ID:唐僧_huangliang,以便更好地与读者互动。
如果判别报告的参考价值
不知大家是否还记得Backblaze,一家提供廉价云存储服务的国外公司。他们数年来使用了多种品牌、型号的3.5英寸大容量SATA硬盘,有企业级也有桌面盘,并且每隔一段时间就发布一个故障统计报告。
之前我并没有专门为此写点什么,当然本文的主题也不是HDD。我只是想提醒大家,Backblaze为了压低成本从各种渠道采购硬盘,其中甚至包括部分返修盘(比如希捷当年出过bug的1.5TB)。再加上他们45盘位的机箱也有些“山寨”,因此AFR(平均故障率)比硬盘厂商给出的数值要高出了几倍。
对于Backblaze这种报告,我一般只是大概看看而已。如果本文引用的SSD报告也是这种水平,我不会花时间撰文跟大家分享。事实上该用户(STH)秉承严谨的态度,选择的SSD范围基本能反映出近几年主流厂商的市场覆盖率,具有一定的代表性。
同时我也会加入一些自己对SSD市场、技术方面的理解。不足之处还望各位专家多批评指正!
近日看到有朋友分享国外网站STH上面的一篇《UsedenterpriseSSDs:DissectingourproductionSSDpopulation》(),剖析了他们采购的二手企业级SSD从型号分布到使用情况在内多组有价值的统计数据。
接着他们还公布了SSD都用在哪些服务器品牌上:
•ASUS
•Dell
•Gigabyte
•HP/HPE
•Intel
•Lenovo
•Supermicro
•“Whitebox”customservers
最下面的“白盒”就是指的组装服务器,看来这份调查中不包含存储阵列中的SSD——企业存储系统通常必须使用“原厂盘”,不允许用户自行采购SSD。
随后列出的还有“最老的机器使用Intel这些CPU”:
•IntelXeonE5:V1(SandyBridge)
•IntelXeonE3:V3(Haswell)
•IntelXeonD:(BroadwellDE)
•IntelAtom:C2000series
也就是说STH此次统计的SSD,运行在上述CPU以及更新的服务器上面。
SSD样本量不大,但厂商型号覆盖有代表性
STHRecycleddatacenterSSDs–installedbyvor
先来看看安装情况,包括了52种型号共412个SSD,样本不算太大但比较有代表性。Intel用量绝对领先,这与我在国内了解到的情况接近,大致有两个原因吧——企业级SATASSD的成熟和可靠性,还有Intel与服务器厂商/用户之间的关系。
三星排第二,毕竟他们是整个NAND闪存和SSD市场的老大,SATA产品线也比较强。
HGST、SanDisk和东芝这三家都有成熟的SASSSD产品线。其中HGST(WD)主要是SAS和PCIe,收购过STEC和Virident;SanDisk则收购过Pliant和SMART这两家企业级SSD厂商,而现在他们的母公司也合并了。
希捷和美光相对少一些,企业级SSD似乎还不是这两家公司的重点,比如控制器都不是自己的。
SuperMicro的SSD有些另类,大家往后看就清楚了。另外Fusion-IO(也被SanDisk收购了)的PCIe闪存卡也有几片,二手的应该便宜些吧。
STHRecycleddatacenterSSDs–ssd-daysbyvor
这个图表是每种品牌的总加电天数,看来SanDiskSSD的平均使用时间要长一些。
STHRecycleddatacenterSSDs–ssd-daysbyvorandmodel
这个还是累积加电时间,只是细分到型号了。
IntelSSD320是第一款“数据中心级”产品,与更早采用SLC的X25-E相比其定位就是高性价比,后来DCS3500替代了它(在上图中使用最多)。DCS3700和S3610在STH也用的不少,另外NVMe接口的DCP3600和P3700也有一些。
三星的型号比较分散,对他家的命名规则我不算太熟,靠右边可以看到NVMe/PCIe的XS1715、(也是PCIe)的XP941。
SanDisk的CloudSpeed和Optimus系列来自SMART,分别对应SATA和SASSSD产品线;而来自Pliant的Lightning则全部是SAS。
东芝在STH使用最多的一款是480GBSATA,企业级读密集型SSD。HGST以自家与Intel合作的SASSSD为主,还能看到STEC的s480SAS和一点ViridentFlashMAXIIPCIe闪存卡。
剩下就不都点评了,最右边的SuperMicro是SATADOM盘,拇指大小插在主板上装系统用。
STHRecycleddatacenterSSDs–installedbyinterface
按接口分类,STH采购的二手企业级SSD最多是SATA,SAS接近100个,PCIe不到50pcs。
STHRecycleddatacenterSSDs–ssdbycapacity
这些SSD的容量点我觉得也能反映现在主流用户的使用情况。由于统计范围是几年内的采购,400GB最多、然后依次为800GB、480GB、960GB…
尽管今天更大的比如3.84TB、15.36TBSSD都已推出,但7200转近线硬盘显然还是要便宜很多。在每台服务器上的热数据没有集中式存储阵列那么多,所以全闪存配置还比较少。此外盘位也没有阵列上那么“紧张”,2个小容量SSD比1个大容量可以贡献更高的性能。
闪存写磨损程度:理论与现实
STHRecycleddatacenterSSDs–TBWuponreceipt
上面的图表,是在412个二手SSD购买时STH测得了其中234个的总数据写入量。只有很少的超过了1PBW,而88%的写入量在150TB以内。
STHRecycleddatacenterSSDs–TBWpopulationratings
STH对这243个SSD按照厂商标称的写寿命分成3个大类:5年DWPD(每天写入整盘容量次数)=0.3,以及0.3DWPD1的各占20%左右,而寿命更高的统一被划归DWPD1的范围。下面是实际写入DWPD情况:
将实际写入量转换成DWPD,我们发现不到0.1%DWPD的SSD达到60%以上,当然这不能代表所有用户。也就是说,许多情况下SSD的寿命问题比我们想象或者估算的乐观许多。STH还拿典型的写入密集应用来举例:一个只有20TB大小的常规用途SharePoint数据存储或者文件服务器,不需要比DWPD=7寿命更高的400GBSSD做为ZIL(ZFS文件系统写日志,推荐设置下所有同步写先进入这里)/SLOG设备。
扩展阅读:《存储极客:SPC-1负载分析与AFA寿命评估》
写到这里我想起去年在美国举行的闪存峰会上,有一场戴尔的演讲《RedefiningtheEconomicsofEnterpriseStorage》。根据其中的统计数据,在20多个月的服务监测周期内,Tier2分层中66%的SSD驱动器只有不到0.1DWPD的写入压力。见下图:
这里将SSD用于DellSC阵列中的情况与前面讨论的服务器有些不同。得益于DataProgression自动分层存储技术,在用于全闪存分层配置时,能够有效利用Tier1中高耐久度/写入性能的SLC/eMLCSSD,来弥补Tier2中MLC和3DTLC的不足。
进一步的说明包括:
1、所有进来的写入被引导至Tier1,数据只是定期向下移动;(注:取决于用户的Replay快照设置周期,推荐是每天)
2、Tier2SSD的规格是每天1次完整写入(1DWPD);
3、在服务期内,没有驱动器的年平均写入量超过1DWPD。
二手SSD故障率比新盘还低?
STHRecycleddatacenterSSDs–failuredatatodate
最后我们再来看一些统计数字。这些SSD部署在STH数据中心后累积总运行天数190,654,平均每个SSD463天,失效的有2个,折算下来的MTBF(平均无故障时间)为2,287,848小时。
这个数值甚至高出采样SSD的厂商标称水平,STH也尝试解释了这与二手之间的关系——他们的工作负载更多是读密集型,所以没有达到写耐久度限制的危险。SSD的生命周期也符合浴缸曲线,初期相对高一些的故障率在STH采购之前就已经被pass了。而二手SSD质量表现比硬盘好得多,我认为一个重要原因是不受流通环节震动的影响。
STH还提醒大家注意一点,在他们从不同途径购买的二手SSD中,大约29%(121块盘)上面还有可访问的数据,也就是说之前的用户没有做安全擦除或者覆盖。这里面的风险,以及应该怎么做就不用我多说了吧?
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage
原文链接:;mid=2649774494idx=1sn=17d3d259755499b011e78b8bd1c13c93#rd





