GPU服务器的散热问题——热虹吸散热技术

随着深度学习、仿真、BIM设计、AEC行业在各行各业应用的发展，在AI技术虚拟GPU技术的加持之下，需要强大的GPU算力解析。无论是GPU服务器，还是GPU工作站都趋向于小型化、模块化、高集成度设计方向发展。热流密度经常达到传统风冷GPU服务器设备的7－10倍，由于采用模块集中安装方案，拥有数量众多且发热量大的NVIDIA英伟达GPU显卡，因此散热问题非常突出。过去常用的散热设计技术已经无法满足新系统的使用要求，传统的水冷GPU服务器还是液冷GPU服务器都离不开风扇的加持，今天我们就来解析一下热虹吸管散热技术。

目前市场上的热虹吸散热技术主要还是利用柱型或板型散热器为体，在散热器底部穿入热媒管，壳体内注入工质，并建立真空环境，这是一种常温重力式热管。工作过程如下：在散热器底部，供热系统通过热媒管将壳体内的工质加热，在工作温度范围内，工质沸腾，蒸汽上升至散热器上部凝结放热，凝结液沿散热器内壁回流至加热段被再次加热蒸发，热量通过工质的不断循环相变由热源传递至热沉，达到供热、加热的目的。

热虹吸散热在GPU工作站上的运用

每一代CPU散热器是如何一步步走向当代的理论性能的极限。从最原始的铝制散热片到现在，它都是不错的选择。大家可能想既然一些小鳍片就这么好用，那更多更大的鳍片是不是更好用？然而结果并非如此。鳍片离热源距离越远，鳍片温度就越低。当温度降低至周围空气的温度时，无论将鳍片做的多长，热传递也不会继续增加。

当现代GPU计算功耗进入75至350瓦区间甚至更高时，热设计工程师们转而研发新的散热方法。热管本身并没有增强散热器的散热能力。它的作用是同时利用热传导和热对流，来实现远高于金属本身的热传递效率。

早在1937年就有热虹吸技术出现，正常运行时热管内部的液体会沸腾，蒸汽通过蒸汽腔到达冷凝端，蒸汽变回液体后再通过管芯返回热源，管芯通常是烧结上去的金属内层，可如果热管吸收太多热量，则会出现“热管干涸”的现象。液体不仅在蒸汽腔内变成蒸汽，同时也会在管芯内变成蒸汽，导致其无法变回液体返回热源，大幅增加了热管的热阻。

现在我们的重头戏来了——热虹吸。热虹吸散热不像热管，用管芯将液体带回蒸发端，而是仅仅利用重力，再加上一些巧妙的设计形成循环，把液体蒸发过程当水泵用。这并不是新技术，在放热量大的工业应用中很常见。

一般来说，GPU内部制冷剂会沸腾，向上流动到里面的冷凝端内，变回液体并返回蒸发端。理论上有两大优势：

1. 避免热管干涸，可用于超频超高性能芯片

2. 因为不需要水泵，所以可靠性优于传统一体式水冷

热虹吸散热现在最重要的一点是它的厚度将会从传统的103毫米减少到仅仅30毫米（减到三分之一以下），外形相对小巧，不会损害性能。热虹吸散热的器材为了便于加工，目前厂家使用铝材质居多。也有使用铜制，温度可能还能再降5-10度，仅针对发热量较大的GPU服务器。

敲黑板敲黑板敲黑板

划重点－小蓝用实验数据来结束这次的重点。小蓝测试的三种不同的英伟达GPU卡，普通风扇和热虹吸散热器在同等4卡水冷GPU服务器下的散热数据：

图一是RTX A6000功率为300瓦

图二是RTX 3090，功率约350瓦

图三是NVIDIA A100，功率约为400瓦