下一代数据中心SSD形态之争:来自Azure架构师的观点

接前文:《下一代数据中心SSD形态之争:调查报告篇》

请大家留意上图中的散热鳍片,后面我还会聊到这一点

本文参考资料来自微软Azure存储硬件架构师Jason Adrian的分享《__OPTIMIZINGSSD FORM FACTORS__》,文末会给出下载文件。

如上图,E1.S和E3(EDSFF 3英寸)看上去就是专门为1U和2U机箱设计的,在15mm宽度下二者竖立放置都能达到26个SSD的密度。那么,还有别的放置方式吗?

大家知道,同样为15mm宽度/厚度的2.5英寸的U.2 SSD(实际上不止2.5英寸,只是按早期HDD盘片直径沿用习惯了)也能在2U机箱中放24个,其SFF-8639接口最大的好处就是机械尺寸上和2.5寸SATA/SAS企业级硬盘通用,这样机箱和驱动器托架(Tray)不用开2种模具。

我在一年半之前的《_EDSFF 3英寸企业级SSD会成为下一代标准吗?_》中介绍过,新标准E3除了15mm左右厚度之外也有7.5mm的薄款,还定义了2种不同的长度(深度),各种尺寸的最大功耗可在20-70W之间。

如上图,E1.L、E1.S和E3都有不同厚度的版本,如何找到通用性来减少尺寸规格的扩散发展?我想这也是服务器厂商头疼的地方。

M.2 SSD企业级应用的问题和对策

关于SSD尺寸(Form Factor)的影响,大致可以分为以下3个维度:

1、物理大小——足够匹配容量需求;

2、散热能力——以预期的风流量来冷却设备;

3、可服务性——简化安装和置换。

现有的M.2在散热、可服务性和容量方面都遇到了挑战,因此出现了一些转接卡和散热贴片的设计。比如下面这2种:

Dell Precision工作站上的前置热插拔M.2 NVMe SSD(加了背板和转接套件),扩展阅读《Optane 900P SSD评测(1):当工作站热插拔遇上Cache软件》

在《_“短中有长”的边缘服务器:EDSFF SSD和20x M.2存储扩展卡》中我曾提到过,PowerEdgeXE2420边缘服务器支持一款FE1 storage expansion cards,就是上图中的高密度M.2转接卡。同时,该机型也支持E1.L新规格SSD,如下图:

Microsoft Azure:E1.S折中宽度15mm的出现

E1规格是针对1U平台优化的,同时也能适用于2U。该尺寸SSD还支持使用正交连接器来省去配置背板。

E3则针对2U平台优化,如果使用在1U机箱内(横向放置)需要背板。如上图:如果服务器前面板采用混合布局,用不满的空间还可以设计OCP NIC 3.0前置接口网卡等。

来自微软Azure的观点是:

E1.S针对性能和适中的容量,E1.L针对高容量;

E1.L只有2种变体匹配我们的需求;

E1.S的挑战:

-9.5mm的散热能力不足以匹配SSD的性能需求;

-25mm太大,难以优化服务器前面板空间;

-为什么不创建一个介于中间的尺寸选项,来适合我们和其他人呢

 

:在今年3月27日最新的SFF-TA-1006 Rev 1.4——Enterprise and Datacenter 1U ShortSSD Form Factor (E1.S)规范中,已经包含5.9mm、8.01mm、9.5mm、15mm和25mm五种宽度规格。如下表:

这里的推荐连续功耗不代表最大功耗,目前我们知道U.2 SSD就有能达到30W的,这还要取决于具体的系统散热设计。

微软建议如下:

-E1.S能满足20-25W在35℃环境温度条件下工作的最小宽度是多少?

-确保最高前面板密度

-针对高功耗需求,定义一种双宽度版本

-需要把SCM放在视野内

如上图:比E1.S、E1.L加高的E1.A超过了1U的高度,这样2U余下的空间还可以放一个OCP网卡。

支持E1的机箱只是一个PCIe设备容器,我们可以将这个用于其他应用吗?比如:

-计算型存储?

-加速器(Accelerator,FPGA/ASIC/类GPGPU等)?

对于加速器,微软建议我们沿用E1.S的宽度,并且仅增加高度的方法…

散热仿真分析

SSD模块的散热,要照顾到各元器件不超过它们的温度限制。例如SoC(主控)最高支持100℃,NAND闪存支持80℃,DDR缓存芯片支持到90℃。

这个仿真,基于进风温度(35℃)、空气流速,以及域空间(83x 33.8 mm^2)都是固定值的条件。上图横坐标为SSD的宽度,依次为9.5mm(可放置7个SSD)、11.5mm(6个)、12mm(6个)、14mm(5个)、15mm(5个)和25mm(容纳3个)。

结论是:15mm SSD能达到整个域内总功耗的最大值(144.1W),同时单个SSD也能达到超过30W的目标;

25mm SSD能支持到更高的单个功耗(42.3W,比15mm提高了12W),但由于数量限制,整个域内可实现的总功耗反而是最低的(比15mm仿真域低了28W)。

看来微软还是比较看好15mm,我理解Intel推动最多支持1U 32个设备的薄款E1.L “Ruler”,主要是针对大容量温数据存储;而微软则更多地考虑了通用需求。这部分没有讨论容量密度,大家参考各厂商的E1.S SSD规格即可。

我在早年做散热测试时,也了解过相关的影响变量,包括进风温度、风量、风压、(部件/散热片)表面积,再多一点还有湿度和海拔(空气密度)。

最后一点,围绕每个驱动器目标LFM(线性英尺每分钟,散热风速)的讨论为70-100 LFM。当在机械约束内同时考虑单个SSD TDP和总域功率时,仿真显示每个驱动器平均为73 LFM。

参考资料

《OPTIMIZINGSSD FORM FACTORS》

《SFF-TA-1006Rev 1.4——Enterprise and Datacenter 1U Short SSD Form Factor (E1.S)》

上一篇的《FutureSSD Survey results》附件可下载

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。

文件名 大小 下载次数 操作
【批量下载】Future SSD Survey results等.zip 2.54MB 1 下载

发表评论

邮箱地址不会被公开。 必填项已用*标注