机箱 · 散热 · 热管理 · 数据中心

服务器机箱与
散热系统

机箱为服务器硬件提供物理保护和安装框架,散热系统确保组件在安全温度范围内稳定运行。从风冷到液冷,从热管到相变——深入理解服务器热管理的每一个环节。

机箱类型
塔式·机架·刀片
风冷散热
风扇·散热片·调速
液冷散热
水冷·冷板·浸没
评估指标
热阻·CFM·风压

服务器机箱总览

Server Chassis Overview

服务器机箱不仅是硬件的物理容器,更是热管理和电磁兼容的关键环节。它为服务器硬件组件提供物理保护和安装框架,同时起到屏蔽电磁干扰(EMI)、优化内部气流通道以辅助散热的作用。机箱设计的优劣直接影响服务器的稳定性、可维护性和散热效率。

物理保护

保护内部CPU、内存、硬盘等精密组件免受物理冲击、振动和静电伤害。服务器运输和运行环境中,机箱结构强度直接决定硬件安全。抗震设计需满足NEBS GR-63-CORE等标准。

电磁屏蔽

服务器内部高频信号(CPU、PCIe、内存总线)产生电磁辐射,机箱金属壳体形成法拉第笼效应,屏蔽EMI对外泄漏,同时阻挡外部电磁干扰进入,确保通过FCC/CE电磁兼容认证。

气流引导

机箱内部隔板、导风罩和挡风板的设计决定了冷热气流的走向。优秀的机箱设计可避免热空气回流(热循环)和气流短路,确保冷空气优先经过最热的组件(CPU/GPU),提升整体散热效率。

安装框架

提供标准化的驱动器托架(2.5"/3.5")、扩展插槽(PCIe)、电源仓和主板安装孔位。EIA-310-D标准定义了19英寸机架安装规范,确保不同厂商设备兼容。

可维护性

免工具设计(Tool-less)允许运维人员快速更换硬盘、风扇、电源等易损件,无需螺丝刀。热插拔托架和LED指示灯配合,实现不停机维护,减少MTTR(平均修复时间)。

接口集成

前面板集成电源按钮、系统状态LED、UID定位灯、VGA/USB诊断接口;后面板提供电源输入、网络接口、串口(IPMI)和扩展卡槽位。机箱面板信息密度是运维效率的关键。

关键标准:服务器机箱设计需遵循多项行业标准——EIA-310-D(19英寸机架)、ATX/EPS/SFX(主板与电源规格)、NEBS GR-63-CORE(电信级抗震/温湿度/防火)、UL 60950-1/IEC 62368-1(安全认证)。数据中心部署还需满足机柜深度(800–1200mm)和走线通道要求。

机箱类型详解

Chassis Form Factors

根据服务器外观形态和应用场景,机箱主要分为塔式、机架式和刀片式三大类型。不同类型在空间效率、扩展能力、散热特性和适用场景上各有侧重。

塔式机箱

Tower Chassis

类似普通PC机箱的立式外形,体积较大,内部空间充裕,扩展性好,常用于中小企业服务器和工作站。无需机架即可独立放置。

扩展槽位4–8个PCIe
驱动器位4–12个3.5"/2.5"
空间效率低(占用地面空间)
中小企业 独立部署 高扩展

机架式机箱

Rackmount Chassis

设计为标准19英寸机架安装尺寸(EIA-310-D),高度以U为单位(1U=44.45mm),可节省空间,便于集中管理和维护,广泛应用于数据中心。

扩展槽位1–6个PCIe(转接卡)
驱动器位2–24个2.5"
空间效率高(42U机柜≈20台2U)
数据中心 主流 高密度

刀片式机箱

Blade Chassis

可容纳多个刀片服务器模块的专用机箱,高度集成。电源、散热、网络交换模块集中共享,适用于高密度计算需求场景。

扩展槽位每刀片0–2个Mezz
计算密度8–16刀片/7U–10U
空间效率极高(共享基础设施)
高密度 集中管理 HPC
常见规格尺寸 (宽×深×高)典型CPU驱动器位PCIe槽应用场景代表产品
1U机架式437×600×44mm1–2路2–4个2.5"1–2 (转接)前端Web、缓存、轻量计算Dell R660 / HPE DL360
2U机架式437×730×87mm2路8–24个2.5"3–6通用计算、虚拟化、数据库Dell R760 / HPE DL380
4U机架式437×870×175mm2–4路24–48个2.5/3.5"6–10GPU服务器、存储服务器Dell R760xa / HPE DL580
4U GPU服务器437×870×175mm2路 + 4–8 GPU4–8个2.5"GPU专用AI训练/推理、HPCNVIDIA DGX H100 / 联想 SR680a
刀片机箱437×730×440mm (7U)8–16刀片 (每片2路)每刀片0–2Mezzanine私有云、高密度计算Dell MX7000 / HPE Synergy
整机柜600×1200×2000mm (42U)集中供电散热模块化配置模块化互联网大规模部署NVIDIA GB200 NVL72 / 浪潮 i24

机箱材质与内部结构设计

Materials & Internal Structure Design

机箱材质的选择影响强度、散热、电磁屏蔽和重量;内部结构设计决定气流效率、硬件兼容性和运维便捷性。

机箱材质对比

属性钢材 (SECC/SGCC)铝合金 (AL5052/6061)
强度极高中等
重量较重(钢密度7.85g/cm³)轻30–40%(铝密度2.7g/cm³)
导热系数~50 W/(m·K)~205 W/(m·K) (4倍于钢)
EMI屏蔽优秀良好(稍弱于钢)
成本较高(约2–3倍)
耐腐蚀需表面处理(镀锌/喷塑)天然抗氧化
典型应用大多数服务器机箱主体高端/轻量化/高散热需求

内部结构设计要点

分层式布局

将不同硬件组件分区域安装:CPU/内存区在主板中前部,驱动器仓在前部或侧面,PCIe扩展区在中后部,电源仓在后部。区域隔离减少热交叉影响。

免工具安装设计

硬盘热插拔托架、风扇卡扣式安装、PCIe快速锁扣——无需螺丝刀即可更换,平均换件时间<2分钟,大幅降低MTTR。Dell/HP主流2U服务器均支持全免工具维护。

理线设计

走线槽、线缆管理臂和理线夹使内部线缆整齐有序,减少对气流的阻碍。1U/2U机箱通常使用弯折SAS/SlimSAS线缆替代传统扁平线,节省纵向空间。

导风罩设计

CPU上方安装塑质导风罩(Air Duct/Shroud),将风扇气流精准导向CPU散热片,避免气流绕行。2U服务器导风罩通常覆盖双路CPU+内存区域,提高有效风量利用率30%+。

散热系统作用

The Role of Cooling Systems

服务器在运行过程中各硬件组件会产生大量热量——现代CPU TDP可达350–500W,GPU TDP可达700–1000W。散热系统的作用是及时将这些热量散发出去,确保硬件组件在正常工作温度范围内运行,以保证服务器性能和稳定性。温度每升高10–15°C,半导体寿命约缩短50%(阿伦尼乌斯方程)。

服务器主要组件热设计功耗(TDP)参考

组件型号示例TDP正常工作温度最高结温 (Tj Max)散热方式
CPU (Intel)Xeon 6990P500W30–85°C105°C液冷 / 高性能风冷
CPU (AMD)EPYC 9754360W30–80°C95°C液冷 / 风冷
GPU (NVIDIA)H100 SXM5700W30–85°C100°C液冷(必须)
GPU (NVIDIA)B200 SXM1000W30–85°C100°C液冷(必须)
内存DDR5 RDIMM~5–8W/条30–85°C85–95°C系统风冷
NVMe SSDSamsung PM1743~25W0–70°C70°C系统风冷 + 散热片
HDDSeagate Exos X20~6–9W5–60°C60°C系统风冷

散热方式分类

风冷散热

Air Cooling

通过风扇将冷空气吹过硬件组件表面带走热量,是最常见的散热方式。空气比热容约1.005 kJ/(kg·K),传热系数5–25 W/(m²·K)。

  • +成本低、维护方便、无需液体
  • +适合TDP ≤ 300W的常规服务器
  • 噪音大、散热上限受空气比热容限制
  • 高密度部署时热量叠加严重
≤300W TDP 适用

液冷散热

Liquid Cooling

利用冷却液(去离子水+乙二醇/专用氟化液)作为热传导介质,将热量传递到外部散热器。水的比热容4.186 kJ/(kg·K),传热系数可达1000–10000 W/(m²·K)。

  • +散热效率为风冷的3000倍+
  • +噪音低、可实现更紧凑机箱设计
  • 成本高(约2–5倍于风冷方案)
  • 需防漏液、管路维护更复杂
300W+ TDP / AI服务器

风冷散热详解

Air Cooling Details

风冷是服务器最成熟、最广泛使用的散热方式,通过散热风扇强制对流和散热片增大换热面积,将硬件产生的热量传递到空气中排出机箱。

散热风扇类型

轴流风扇 (Axial Fan)

气流方向与扇叶旋转轴平行

  • • 风量大、风压较低,适用于大面积散热
  • • 服务器常用规格:40×28mm / 80×80mm / 120×25mm
  • • 典型转速:5,000–18,000 RPM
  • • 噪音与转速成正比,18K RPM时噪音>60 dBA
  • • 安装位置:机箱前/后壁、电源内部
大面积散热

离心风扇 (Centrifugal / Blower)

气流方向与进风方向垂直(90°偏转)

  • • 风压高,适用于需要克服较大气流阻力的场景
  • • 可在狭小空间内提供定向高压气流
  • • 典型转速:10,000–25,000 RPM
  • • 噪音较高,通常需配合降噪设计
  • • 安装位置:1U服务器CPU散热、GPU显卡散热
高风压/狭小空间

散热片 (Heatsink)

散热片通过增大与空气的接触面积来提高热交换效率。其核心参数包括鳍片数量、鳍片间距、底座厚度和材质。服务器CPU散热片通常采用铝挤压或铝鳍片+铜底座(VC底座)设计。

  • 铝鳍片:轻量、成本低,导热系数约205 W/(m·K)
  • 铜底座/热管:导热系数约385 W/(m·K),快速均热
  • 均温板(VC):相变传热原理,等效导热率>10,000 W/(m·K)
  • 鳍片间距:1U散热片约1.0–1.5mm(需高风压风扇匹配)
  • 导热硅脂:填充CPU与散热片微观间隙,导热率1–15 W/(m·K)
散热片类型适用U数散热能力重量典型用途
主动式(含风扇)1U≤150W~400g1U服务器CPU
主动式(含风扇)2U≤300W~800g2U服务器CPU
被动式(纯鳍片)2U≤200W~600g2U+机箱风扇辅助
被动式+热管2U≤250W~700g2U双路CPU
均温板底座2U≤350W~900g高TDP CPU

智能风扇调速 (Fan Speed Control)

通过主板上的温度传感器(Thermal Sensor)和 BMC 芯片实时监测硬件温度,根据温度高低自动调节风扇转速。服务器风扇控制遵循PID(比例-积分-微分)算法或预设的线性/步进温控曲线。

风扇转速控制策略
30–40°C
低负载/空闲
风扇约30%转速
噪音 ~35 dBA
50–65°C
中等负载
风扇约55%转速
噪音 ~45 dBA
70–80°C
高负载
风扇约80%转速
噪音 ~55 dBA
85°C+
过热预警
风扇100%全速
噪音 60+ dBA
温度较低时,风扇转速降低,减少噪音和功耗——空闲时功耗可降低40–60%
温度升高时,风扇转速加快,增强散热效果——防止CPU/GPU过热降频(Thermal Throttling)
BMC通过IPMI/Redfish暴露风扇状态和温度数据,支持远程监控和告警
冗余风扇故障时,其余风扇自动提速补偿,维持散热能力不下降

液冷散热详解

Liquid Cooling Details

液冷利用冷却液作为热传导介质,将热量传递到外部散热器进行散热。相比风冷,液冷散热效率更高,能更好地控制硬件温度,降低噪音,并可实现更紧凑的机箱设计,适用于对散热要求极高的高性能服务器和数据中心。

液冷散热分类

冷板式液冷 (DLC)

在CPU/GPU上安装铜质冷板(Cold Plate),冷却液在冷板内部微通道中流过带走热量,通过CDU(Coolant Distribution Unit)将热量排到外部冷却塔/干冷器。

  • • 冷却液:去离子水+乙二醇/丙二醇
  • • 进液温度:30–45°C
  • • 流量:0.5–2.0 L/min per 冷板
  • • 可处理TDP:300–1000W+
  • • PUE可降至1.05–1.15
当前AI服务器主流

浸没式液冷 (单相)

将整台服务器浸没在绝缘氟化冷却液中(如3M Novec 7100/7200),液体直接接触所有发热组件表面,单相不发生相变,依靠显热带走热量。

  • • 冷却液:3M Novec / Shell Immersion S5 X
  • • 液体导热率:~0.07 W/(m·K)
  • • 比热容:~1.2 kJ/(kg·K)
  • • 可处理TDP:1000W+/组件
  • • PUE可降至1.02–1.06
超算/AI集群

浸没式液冷 (双相)

发热组件使低沸点冷却液在接触面蒸发(相变吸热),蒸汽上升至冷凝器冷凝回流(相变放热),利用汽化潜热带走大量热量。

  • • 冷却液:3M Novec 649 / FC-72
  • • 沸点:34°C (649) / 56°C (FC-72)
  • • 汽化潜热:~88 kJ/kg (649)
  • • 散热能力极高,无需水泵
  • • PUE可降至1.01–1.03
极致效率

冷板式水冷系统组成

水冷头
Cold Plate
铜质微通道
贴附CPU/GPU
水泵
Pump
驱动冷却液
循环流动
散热排
Heat Exchanger
液-液/液-气
热交换
管路
Tubing
EPDM/PU软管
快拆接头
冷却液
Coolant
去离子水+
乙二醇/防腐蚀剂
CDU(冷却分配单元)
Coolant Distribution Unit — 集成水泵、换热器、过滤器、流量/压力/温度传感器和漏液检测

液冷散热优势

散热效率极高

水的比热容是空气的4倍,传热系数高1000倍以上,单冷板可散热500–1000W+

噪音大幅降低

取消高转速风扇,液冷服务器噪音可降至40–45 dBA以下,改善数据中心工作环境

更紧凑的机箱设计

省去大型散热片和高转速风扇,1U/2U机箱可容纳更高TDP处理器,提升计算密度

节能降PUE

制冷能耗减少40–60%,PUE从1.4–1.6降至1.05–1.15,2–3年TCO回收

相变散热与热管技术

Phase-Change Cooling & Heat Pipe Technology

相变散热和热管技术利用物质相变过程中的潜热传递热量,具有极高的传热效率和静音特性,在高端服务器和特殊应用场景中日益重要。

热管散热原理 (Heat Pipe)

高效相变换热元件

热管是一种具有极高导热性能的传热元件,等效导热系数可达铜的100–1000倍。管内填充液态工质(通常为纯水,高端用甲醇/丙酮),内部壁面设有毛细结构(烧结铜粉/沟槽/丝网)。

1
蒸发段:热管一端受热(接触CPU),工质蒸发吸收潜热
2
绝热段:蒸汽通过管内中空通道流向冷端
3
冷凝段:蒸汽遇冷冷凝,释放潜热给散热鳍片
4
回流:冷凝后的液态工质通过毛细力/重力回流至蒸发段,循环往复
工质工作温度适用场景
纯水30–200°C服务器CPU散热(最常用)
甲醇-40–120°C低温环境/军工
丙酮-50–130°C宽温域应用

相变散热技术 (Phase-Change)

利用相变潜热高效传热

相变散热利用物质相变(如液体蒸发吸热、气体冷凝放热)过程中的潜热来传递热量。水的汽化潜热约2260 kJ/kg,远大于显热(1°C温升仅4.186 kJ/kg),因此相变散热可实现极高的热流密度。

均温板 (Vapor Chamber)

二维热管,大面积均热。内部真空腔体+毛细结构+少量工质。用于CPU/GPU散热片底座,面积可达100×100mm+,等效导热率>10,000 W/(m·K)。高端服务器散热片标配。

环路热管 (LHP)

蒸发器+冷凝器分离式设计,毛细泵驱动工质循环,无需机械水泵,可远距离传热(>1米)。应用于航天和高端笔记本,服务器领域正在引入。

相变储能材料 (PCM)

石蜡/金属基PCM在相变温度点吸收大量潜热,可用于瞬态高峰散热(如AI推理突发负载),延缓温度爬升,配合主动散热实现温控平滑过渡。

传热方式等效导热系数 W/(m·K)传热能力典型应用成熟度
纯铜(传导)385基准散热片底座成熟
纯铝(传导)205基准×0.53散热片鳍片成熟
热管5,000–200,000基准×13–520CPU/GPU散热器成熟
均温板(VC)10,000–500,000基准×26–1300高端CPU散热底座成熟
冷板液冷—(对流传热)基准×3000+AI/HPC服务器快速普及
浸没式(双相)—(相变传热)基准×10000+超算/AI集群发展中

散热冗余设计与防尘

Redundancy & Dust Protection

保障服务器在高负载或部分散热组件故障时仍能正常运行,以及防止灰尘影响散热效果和设备寿命——冗余和防尘是服务器散热设计不可忽视的关键环节。

散热冗余设计

风扇冗余 (N+1 / N+2)

2U服务器通常配备4–6个系统风扇(如N+1配置4+1=5个),当其中一个风扇故障时,BMC自动提高其余风扇转速弥补散热能力。IPMI可发送风扇故障告警,运维人员可在维护窗口热插拔更换,无需停机。

液冷回路冗余

CDU内双泵设计(1主1备),主泵故障时自动切换至备用泵。管路采用双回路设计,单点泄漏不影响全部冷板。漏液检测传感器(点式/线式)可在3秒内检测到泄漏并触发关阀保护。

过热保护策略

当散热系统失效导致温度持续上升时,服务器按阶梯策略保护:① 85°C:风扇全速 ② 95°C:CPU降频(Thermal Throttling) ③ 100–105°C:触发PROCHOT紧急降频至最低频率 ④ 超过Tj Max:自动关机防止硬件损坏。

散热防尘与风道设计

防尘网

在机箱进风口安装防尘网(尼龙/不锈钢/活性炭材质),过滤粒径≥5μm灰尘颗粒。需定期清理(建议每1–3个月),否则灰尘堵塞会导致进风量下降30–50%,温度上升10–20°C。

定期维护

灰尘堆积在散热片表面会形成隔热层,增加热阻20–40%。数据中心应制定防尘网清洗和机箱除尘计划(每年至少1次深度清洁),保持机房正压和过滤系统运行良好。

风道设计模式

前进后出

冷空气从前面板进入,经CPU/内存等组件后从后部排出。1U/2U机架式服务器最常见设计,配合数据中心冷热通道隔离。

下进上出

利用热空气上升原理(烟囱效应),冷空气从底部进入,热空气从顶部排出。塔式服务器和部分存储服务器使用。

侧进后出

部分GPU服务器和高密度设计使用侧面进风,增大进风面积以匹配多GPU散热需求。如NVIDIA DGX H100。

散热性能评估指标

Thermal Performance Metrics

科学评估散热系统性能需要量化指标。以下为服务器散热设计中最核心的评估参数,从热阻到风量风压,再到实际硬件温度。

指标符号单位定义典型值评判标准
热阻θ (Theta)°C/W 衡量散热材料或装置传导热量能力的指标,表示每瓦功率导致的温度升高。θ = (T_junction - T_ambient) / P CPU散热器:0.1–0.5 °C/W
导热硅脂:0.05–0.5 °C/W
越低越好
风量Q (CFM)CFM (ft³/min)
或 m³/h
单位时间内风扇输送的空气体积,反映散热系统的整体气流供给能力。1 CFM ≈ 1.699 m³/h 1U服务器:50–100 CFM
2U服务器:80–200 CFM
越大越好(需匹配风道)
风压PsmmH₂O
或 Pa
风扇克服阻力的能力,即风扇在零流量条件下产生的最大静压。高密度鳍片/滤网需要高风压风扇。 轴流风扇:3–15 mmH₂O
离心风扇:15–50 mmH₂O
视场景而定
CPU温度Tcpu°C CPU结温(Junction Temperature),最直接的散热效果指标。通过DTS(Digital Thermal Sensor)读取。 空闲:30–45°C
满载:60–85°C
距Tj Max保持≥10°C余量
GPU温度Tgpu°C GPU核心温度,AI/HPC服务器最关键的热指标。 空闲:25–40°C
满载:65–85°C
距Tj Max保持≥10°C余量
进风温度Tin°C 服务器前面板进风温度,ASHRAE推荐18–27°C(A1级)。 数据中心:18–27°C ASHRAE A1: 15–32°C
PUEPUE无量纲 数据中心总耗电/IT设备耗电,反映制冷效率的宏观指标。 风冷:1.3–1.6
液冷:1.05–1.15
越接近1.0越好

ASHRAE 数据中心环境温湿度推荐范围 (TC 9.9)

等级推荐温度范围允许温度范围推荐湿度适用场景
A118–27°C15–32°C20–80% RH企业级IT设备(最常用)
A218–27°C5–40°C8–80% RH办公/存储IT设备
A318–27°C5–45°C8–85% RH宽温域IT设备
A418–27°C5–45°C8–90% RH最宽温湿度范围
B5–35°C8–80% RH工业/办公设备
C5–40°C8–80% RH工业设备

提高进风温度(如从22°C提至26°C)可减少制冷能耗约4–8%/°C,但需确保服务器进风不超过允许上限。液冷系统允许更高进液温度(30–45°C),从而更充分利用自然冷却。

LATEST NEWS

最新行业动态

2024-2025年服务器机箱与散热领域重大事件

重大2025年3月

NVIDIA GB200 NVL72 液冷整机柜大规模交付:单机柜120kW散热挑战

GB200 NVL72整机柜集成36颗Grace CPU + 72颗B200 GPU,功耗约120kW,必须采用冷板式液冷。NVIDIA指定CoolIT Systems/Asetek提供DLC方案,CDU散热能力达150kW+。2025年Q1起向CoreWeave、Oracle、微软等大规模交付,推动液冷基础设施进入超大规模部署阶段。

标准2024年11月

OCP DC-MHS 2.0发布:统一液冷接口标准

开放计算项目(OCP)发布DC-MHS 2.0模块化硬件系统规范,首次定义统一的冷板液冷接口(Inlet/Outlet管径、快拆接头规格、漏液检测接口),确保不同厂商服务器和CDU之间的兼容性。Intel、AMD、NVIDIA、广达、纬创等均参与制定,加速液冷标准化。

产品2025年1月

Intel Xeon 6 原生液冷就绪:散热参考设计全面支持DLC

Intel Xeon 6平台(Granite Rapids-SP/Sierra Forest)的散热参考设计全面支持冷板液冷,TDP最高500W。Intel与CoolIT、Asetek、Boyd合作提供经认证的冷板方案。板载温度传感器数量从5个增至8个,配合BMC实现更精准的液冷流量控制。

投资2025年

全球数据中心液冷市场:2025年预计达58亿美元

据MarketsandMarkets报告,全球数据中心液冷市场规模从2024年约38亿美元增至2025年约58亿美元,CAGR达53.4%。冷板式液冷占75%+份额,浸没式液冷增速更快。中国"东数西算"项目推动液冷快速普及,华为、浪潮、联想均推出液冷整机柜解决方案。

技术2024-2025年

钛合金3D打印散热器进入服务器领域

HP/Microsoft/Jabil等公司开始采用钛合金3D打印技术制造服务器CPU散热器,可实现传统加工无法达到的复杂微通道结构,散热面积提升200%+,重量减轻40%。2024年HPE发布首批采用3D打印液冷板的ProLiant服务器,成本下降趋势明显。

法规2025年1月

欧盟EED指令要求数据中心报告PUE和散热效率

欧盟修订版《能源效率指令》(EED)于2025年1月生效,要求100kW以上数据中心向欧盟数据库报告PUE、WUE、废热利用率等数据。PUE>1.4的数据中心将面临审查和改进要求。推动液冷和自然冷却技术在欧洲数据中心加速采用。

创新2024年

两相浸没式液冷商用加速:Submer/GRC/LiquidStack方案获大规模部署

Submer、GRC(Green Revolution Cooling)和LiquidStack等厂商的两相浸没式液冷方案在2024年获得多个超大规模部署订单。LiquidStack的两相DLC方案支持单机柜150kW+散热能力,PUE低至1.01。Intel与Submer合作推出经认证的浸没式液冷服务器平台,降低用户采用门槛。