散热与可靠性兼得的极限挑战:我知道风,是在哪一个方向吹

北京2022年1月4日 /美通社/ — “风扇转速刚过每分钟2万转,硬盘就掉链子,而且多次测试结果都是这样。”即使看惯了实验室里不同工况条件下的大场面,浪潮信息服务器研发工程师张海龙对眼前的情况还是有些惊讶,“毕竟各种因素赶到一块儿的场景太罕见了”。

其实,任何事物在带来好处的同时,都要付出一定的代价所谓鱼和熊掌兼得,不过是成千上万次再平衡之后的偶然。

比如:芯片的性能越高,产生的功耗也会随之增大,提高散热能力就成为谋求平衡的筹码而追求极限散热,难免对硬盘等部件造成冲击,兼顾可靠性又变成新一轮平衡游戏的主题。

当然,散热和可靠性并非零和博弈,只要管控好变量,就有机会走出囚徒困境。

悬在头上的达摩克利斯剑

在千行百业数字化转型的大时代,数据中心既是驱动增长的重要引擎,也是不容忽视的“耗电怪兽”2020年,我国数据中心用电量突破2000亿千瓦时,占用电总量比重约2.7%预计到2030年,这一数字将突破4000亿千瓦时,占比升至3.7%。

工信部近期印发《新型数据中心发展三年行动计划(2021-2023年)》,对PUE(数据中心总能耗/IT设备能耗)明确规定:到2021年底,新建大型及以上数据中心PUE降低到1.35以下,到2023年更要低于1.3。

显而易见,1.3将成为各地新建数据中心的PUE红线但目前全国大型数据中心平均PUE为1.55,超大型数据中心平均PUE也仅为1.46也就是说,在保有量万台服务器的数据中心,每耗费一度电,只有64.5%用于IT领域,其余35.5%则用在空调等非IT设备。

数据中心为了降低PUE,必须让能源更多向IT设备倾斜,这对服务器的供电和散热研发设计提出了更高要求供电效率提升可降低CPU等关键部件散热量,从而减少空调等设备的使用浪潮信息掌握了从12V到48V直流供电技术,48V直流供电预计可减少30%的能耗。

液冷是散热技术的翘楚,可以用液体取代空气作为冷媒,带走部件热量,目前常见的方式有冷板、浸没、风液混合等,已在云数据中心和边缘数据中心规模化部署,对降低PUE效果显著但液冷技术对数据中心的机房环境要求苛刻,重新改造的成本也较高,浸没式液冷的冷却液价格更是堪比茅台。

对大多数数据中心来说,风冷才是低成本改善散热的主流方案,最“简单粗暴”的做法是提高服务器风扇转速风扇高速转动将热量快速带出,可避免部件发热量过高影响系统稳定性但不断加码风扇转速直至满转时,风扇与硬盘之间会形成大的漩涡,而不规则的湍流影响非常严重 — 服务器内的硬盘碟片磁道密度低于50nm、Ocylim低于10nm,磁头轻微振动就会造成读写性能大幅下降,甚至导致整个硬盘报废。

硬盘内部结构图

御风而行的“逍遥”苦旅

庄子在《逍遥游》中有言:“夫列子御风而行,泠然善也旬有五日而后反彼于致福者,未数数然也”一场不强求结果的十五天旅行,固然悠游潇洒,但仅限于个人境界,无关万物苍生。

当张海龙及其背后的研发团队遭遇系统风扇与硬盘的激烈博弈,想在散热和可靠性的夹缝中寻求突破时,他们无法轻松自在,跨度长达一年半的“御风之旅”充满艰辛。

风冷方案历经40多年的演变,主要通过三条路径实现散热优化:一是从散热器入手,比如材料由铝变成铜、将翅片加大扩展散热面积、改良热管排布、利用富余空间补充远端散热等二是提高风扇速度,制约点是机电控制和马达质量,主要交由几家专业的风扇厂商负责三是在发热元件附近部署传感器,类似人体的末梢神经,一旦感知局部升温就快速投放冷量,反馈越灵敏,调控越精准。

对服务器厂商而言,风扇调控策略是其擅长的领域,研发团队要做的,恰是从系统风扇本体的声振性能为切入点,解决散热与可靠性之间的博弈。

从可能的振源到受振敏感元件之间的路径太多,需要借助对比和定量分析法,对各个因子逐一进行耦合切断,主板、存储控制卡、背板连接器等都曾上过“黑名单”。

在经历近半年的排查分析后,一个“突发奇想”的行动 —  索性切开机箱,把振动传递路径上的影响因子全部做解耦抽离,迫使真正的“元凶”浮出水面机箱一切两段,切断了机械传动路径,中间用纸板把硬盘和风扇隔开,硬盘不再受风的影响,同时对风扇产生的噪声也有一定遮挡,硬盘读写功能逐渐攀高再换不同转速的风扇及方案组合进行反复验证,最终工程师找出了“气动噪声”这个“深藏不露”的重要影响因子。

在流体力学中,这个影响因子叫做:“湍流”,也就是济南趵突泉公园康熙题字碑的“激湍”的标准名称湍流打到风扇扇叶上,风回来得比较无序,而且有部分声音从风扇背面传到前方要把大的空气漩涡破掉,最理想的方案肯定是将湍流转换成层流,或者在高风压条件下把大湍流切成小湍流。

 湍流需要奔放的发明者,正如需要专业分析师那么重要。

传统服务器会采用减振垫来减缓振动,这种方法针对机械传动路径有效同时依靠风扇后端的挡风罩切割和控制风向但当系统风扇转速从每分钟2万转提升到3万转,机箱内部的湍流问题就愈发凸显,亟需新的机械结构在风力源头担当重任。

没有人愿意啃硬骨头,除非被逼到墙角从层流到湍流的转体,是业界公认的难题北大的数学大神韦东奕曾从数学模型的角度求解层流到湍流的变化,获得百万奖金服务器的研发工程师则在应用维度作出开创性的尝试:从初期的百叶窗到最后敲定波导网,其间历经成百上千次的锤炼研发工程师采用不同宽度、孔径的横向或纵向波导网进行多次对照试验,起始阶段效果并不理想,没有满足高可靠性的要求但测试证明波导网的确能有效缓解振动,有助于提升通风量并形成稳定的平行风流。

研发初期服务器内部系统流场仿真图

一个偶然的机会,研发人员受到深圳机场航站楼六边形建筑结构启发,萌生蜂巢形状波导网设计思路综合测试后发现,六边形波导网既节省材料,通风量也适宜,同时足够坚固,对风流能有力约束,并减小湍流造成的振动,解决了风扇散热与可靠性无法兼得的难题。

波导网内部为铝制六边形蜂巢状小孔,单边厚度不足0.2mm,重量仅11克左右,可谓“薄如蝉翼”为探求不同机型最佳波导网结构,研发工程师还针对蜂巢单元的尺寸和蜂巢板的厚度进行测试,为每一款服务器找到孔径、厚度相匹配的波导网,并对降噪需求突出的机型填加了吸音海绵。

相关数据显示,配置波导网的M6服务器散热效率大幅提升17%~22%,可让数据中心环温提升1.5~2摄氏度,节约6%~8%的能耗此外,波导网还能减少气流对硬盘高频振动的影响,硬盘IOPS性能提升8%~10%。

“风水大师”背后的故事

波导网的横空出世,既是极限压力环境下的成果,也是浪潮信息特色研发模式的产物。

主赛道和训练赛道相结合,是孕育新技术、产品和解决方案的温床。浪潮信息在技术储备方面有良好的预研体系,结构、散热就是其中的项目。预研中的技术通常具有前瞻性,要在训练赛道上摸爬滚打;而产品研发更贴近市场需求,预研中相对成熟的技术,才有机会跻身主赛道。波导网从预研到成为M6服务器产品的标配,正是主辅赛道转化机制的受益者。

仿真与测试协同作战,是研发进程节时降本、效率提升的不二法门。从硬盘、背板到风扇前界面空间极小,风道来源异常复杂,风洞、烟雾等实测方式无法实施,针对风流、风压的流体仿真和基于各种特殊要求的机械可靠性仿真,就显得尤为重要。波导网率先尝到了甜头,为更多新技术的仿测协同树立了标杆。

打破各个资源壁,重新构建跨部门合作关系,是达成最优方案的核心路径。波导网是全新的部件,需要散热、结构、存储等不同团队持续磨合,在相互妥协的过程中探寻创新的可能。对单一指标的过分强调,有时会变成研发中最大的障碍,而每一次基于共同目标的“让步”,才是通往成功的阶梯。

优秀的研发模式是复制更多波导网传奇的基石 — 知道风在哪一个方向吹,就不会迷失在乱云飞渡的技术湍流里。

给TA买糖
共{{data.count}}人
人已赞赏
专栏发现

惠灵顿(中国)蝉联“亚洲最佳企业雇主”

2022-1-4 19:57:42

专栏

融资数百亿,AI四小龙闯关IPO,谁是最强王者?

2022-1-4 20:56:17

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索