【導讀】在AI技術迅猛發展的當下,GPU的性能不斷躍升,其功耗也隨之水漲船高。這一變化使得AI服務器對供電的要求愈發嚴苛,供電需求呈爆發式增長態勢。在這一關鍵演進中,確保高壓電源在熱插拔、故障保護與實時監控方面的可靠性,成為了AI基礎設施不可忽視的核心課題。本文聚焦于此,探討模擬器件行業領導者ADI在此領域的創新,解析其面向±400V/800V系統的熱插拔保護與高精度遙測技術,如何為下一代AI數據中心構建安全、高效且智能的電力底座。
摘要
在AI技術迅猛發展的當下,GPU的性能不斷躍升,其功耗也隨之水漲船高。這一變化使得AI服務器對供電的要求愈發嚴苛,供電需求呈爆發式增長態勢。在這一關鍵演進中,確保高壓電源在熱插拔、故障保護與實時監控方面的可靠性,成為了AI基礎設施不可忽視的核心課題。本文聚焦于此,探討模擬器件行業領導者ADI在此領域的創新,解析其面向±400V/800V系統的熱插拔保護與高精度遙測技術,如何為下一代AI數據中心構建安全、高效且智能的電力底座。
數據中心熱插拔控制器的未來發展
隨著AI工作負載不斷加重,服務器環境中的GPU催生了前所未有的供電需求,推動機柜級供電架構向800V轉型。這種高壓架構為系統保護與監控帶來了新的挑戰,尤其是在托盤帶電插拔的過程中。為應對這些挑戰,需要新一代熱插拔控制器:不僅要具備管理高壓浪涌電流的能力,還要能提供可靠的遙測功能,以支持系統診斷與安全防護。ADI公司在12V與48V熱插拔技術領域是公認的領軍企業,如今正將這方面的技術專長拓展至800V領域,以支持行業向高壓架構轉型。
為何800V架構至關重要?
在AI服務器基礎設施中,有兩大核心趨勢正推動機柜級供電向更高電壓轉型。
1.GPU功耗持續攀升:隨著GPU的計算性能不斷提升,其供電需求也在大幅增加。
2.單機柜計算密度增高:為實現大規模AI訓練與推理場景下的性能最大化,并盡可能降低互聯延遲,越來越多的GPU被整合到單個機柜中。這種共置方式通過縮短加速器之間的數據傳輸路徑,不僅提升了帶寬效率,還減少了通信開銷。
為滿足由此激增的機柜級供電需求,行業正逐漸轉向分布式供電架構。在這種模式下,傳統供電元件(如配電單元(PDU)、電池備份單元(BBU)與電容單元(CU))不再部署在IT主機柜內,而是轉移至相鄰的供電側柜(sidecar)中。這種分離設計不僅支持800V等更高電壓的電力傳輸,還能騰出機柜內的寶貴空間,用于容納更多計算資源。
現有的供電方式
AI機架采用48V匯流排進行供電(見圖1)。交流電通過機柜內的電源單元(PSU)轉換為48V直流電源(VDC)。48V匯流排為以下設備供電:IT設備(包括服務器PSU、GPU節點、交換機)、自帶雙向直流-直流轉換器的電池備份單元(BBU),以及用于快速暫態支撐與瞬態處理的超級電容單元(SCU)。

圖1.數據中心48V機柜供電架構。
![]()
圖2.48V AI服務器。
機柜上的每個節點(例如服務器托盤)都需要具備在設備運行狀態下實現接入與斷開的能力。試想這樣一個場景:一名技術人員到現場更換服務器。為了更換單臺服務器而關閉整個機柜是不可行的。這種操作會對數據中心的運行造成極大干擾,更不用說服務器停機帶來的巨額損失了。只有在出現重大電力問題(如匯流排或設施供電相關故障)時,才會將機柜下線。除此之外,節點均采用熱插拔方式:技術人員無需關閉其他任何設備,即可取下待更換節點、完成替換并重新裝回。
在此過程中,節點的熱插拔控制器會在內部切斷電源,確保節點可安全移除;而機柜的匯流排仍保持通電狀態,繼續為其他所有節點、BBU及SCU供電。當替換節點安裝到位后,預充電電路會在完全接通前限制浪涌電流,這也是熱插拔控制器的一項關鍵功能。隨后,替換節點會自動啟動并重新接入AI集群(通常由編排工具負責負載再平衡)。
圖2展示了AI服務器從48V匯流排到處理器的供電分配情況,其中清晰地將熱插拔控制器標注為“首個接口”,讓技術人員能夠安全、高效地移除節點。
ADI公司擁有豐富的48V熱插拔控制器產品系列,具備PMBus?電源監控功能,例如LTC4286與LTC4287二者均為7 mm × 7 mm QFN封裝的熱插拔控制器,分別采用單柵極與雙柵極架構。最近,該產品系列又新增了LTC4284雙柵極解決方案,其封裝規格為5 mm × 8 mm QFN。
向更高電壓演進
隨著AI處理器的功耗不斷增加,機柜級高壓直流配電正成為新的發展方向。ADI公司站在技術前沿,并與行業領先企業緊密合作,共同解決相關難題。
機柜側已定義新的配電電壓等級(±400V或800V),由供電側柜直接輸送至IT機柜。圖3展示了這一擬議架構。

圖3.數據中心±400V/800V機柜供電架構。
機柜級電壓向更高水平轉型的主要驅動力,是單機柜不斷攀升的供電需求。隨著供電功率增加,流經匯流排的電流也會相應增大。為維持符合要求的熱性能與電性能,電流增大意味著需要更大、更重的匯流排,而這在機械實用性與系統設計層面帶來了巨大挑戰。通過提高供電電壓,所需電流可按比例降低,從而能夠使用尺寸更緊湊、更易管理的匯流排及互聯元件。這種向更高電壓的轉型,對于在下一代AI服務器機柜中實現可擴展、高效且機械可行的配電至關重要。
值得注意的是,這種架構演進過程中可能存在過渡階段:機柜內仍使用48V匯流排。在此情況下,PSU會升級至更高功率規格,在機柜側接收±400V/800V電壓,然后降壓轉換為48V,以適配現有的48V匯流排。但這并非長期方案,因為其供電能力存在局限(單機柜功率可能最高僅達250kW);而行業目標是實現單機柜算力最大化,到本十年末將單機柜供電功率提升至1MW。因此,PSU與BBU最適合部署在IT計算機柜外部,如圖3所示。
未來,固態變壓器有望投入使用,可直接向每個IT計算機柜分配高壓,無需再依賴這些供電側柜。
熱插拔技術邁向新高度
ADI公司在數據中心電源領域擁有深厚的專業技術積淀,正與云服務提供商及半導體制造商合作,共同開發下一代機柜級高壓供電解決方案。
要實現高壓熱插拔,需明確諸多設計考量,也需攻克各類技術難題,方能打造出最優解決方案。
?功率密度:功率密度是關鍵因素:因為±400V/800V熱插拔電路最終需集成在IT機柜內的服務器卡上。這些服務器卡的空間極為寶貴,且隨著機柜密度提升(即在單個機柜內集成更多服務器),空間限制將愈發嚴格。因此,高壓熱插拔解決方案必須設計為占用盡可能小的空間。
?高壓控制與保護:向±400V及800V電壓轉型,帶來了嚴峻的安全挑戰。48V電壓的觸電風險極低,而高電壓則可能危及生命。因此,熱插拔電路必須在微秒級時間內處理大幅電流浪涌,精準控制變得至關重要。管控浪涌電流上升斜率是核心,這能避免機柜設備損壞,同時保障技術人員安全。此外,系統還需協調時序、檢測過流或欠壓事件,并在必要時實現平穩關機。
?遙測:作為節點供電路徑中的首個元件,熱插拔控制器是數據采集的理想位置。它必須精準測量電壓、電流與功率,以滿足系統規格要求,同時還需記錄過流、欠壓、熱關斷等事件日志。此外,熱插拔控制器還應上報功率開關(MOSFET)或附近印刷電路板(PCB)區域的溫度數據。精準的熱插拔遙測技術能為系統帶來顯著價值:通過實時分析負載電流,改善能源需求預測。熱插拔環節收集的歷史電流數據,既支持預測性維護(例如在PSU觸發故障前識別異常),也能為機柜級配電容量規劃模型提供數據支撐。ADI公司正積極開發新型高壓熱插拔控制器解決方案,以支持新興的機柜級供電架構。依托在電源保護與遙測領域經過驗證的知識產權,ADI正將自身的技術能力拓展至±400V與800V領域。通過與領先的數據中心OEM及功率開關供應商合作,ADI公司的下一代解決方案在設計上充分滿足熱插拔系統不斷演進的需求,包括緊湊的外形尺寸、精準的大功率控制及更高的數采精度。這些創新對于保障高壓AI服務器環境安全高效運行至關重要。
結語
本文重點闡述了AI服務器機柜向800V供電架構轉型的關鍵趨勢,這一轉型旨在滿足先進GPU日益增長的功耗需求,并支持更高的計算密度。新架構將供電元件遷移至獨立的供電側柜,從而優化主機柜內計算資源的空間配置。ADI處于這一技術發展的前沿,所開發的下一代高壓熱插拔控制器能夠有效管理浪涌電流、提供全面的系統診斷與安全遙測功能,并確保運行可靠性。從系統層面審視機柜供電的演進后,開發者可助力云服務器提供商與系統集成商獲得新的洞察,實現成本節約。
推薦閱讀:







