建造能夠滿足渴望以人工智慧 (AI) 所帶來的可能性為基礎之需求的資料中心的驅動力,創造了前所未有的能源需求。在 2018 年,美國資料中心消耗了 76 TWh 的電力,佔美國總能源消耗的 1.9%。然而,到 2028 年,美國資料中心預計需要 325 到 580 TWh 的電力,約佔美國總能源消耗的 12%。
這些數字呈現了 AI 資料中心在各方面所面臨的巨大挑戰,從晶片和印刷電路板 (PCB) 到設施中的冷卻系統。簡而言之,如何滿足 AI 資料中心的能源需求的問題,不限於伺服器農場本身。這項挑戰牽動著整個中心內的所有系統。因此,人們需要一種全面的方法來有效應對這項挑戰,而這個方法應考慮到資料中心的所有層面。Ansys (現已與Synopsys合而為一) 提供滿足從晶片到設施層級的資料中心能源需求所需的工具。
人工智慧 (AI) 資料中心是一項多系統工程挑戰。
無論其用途為何,資料中心都是包含多個伺服器機房的大型設備,其中充滿可容納個別伺服器的機架。在大多數情況下,無論製造商是誰,它們的外觀都相似。然而,在安裝第一個機架之前,工程師必須考量一些關鍵層面,以確保從電源開始,伺服器機房便盡可能有效率地運作。
資料中心必須從某處取得電力,而由於用水量、電網限制和放熱已成為大眾關注的領域,許多公司正在考慮永續替代能源,例如風力、太陽能和核能。工程師可以使用模擬解決方案,例如 Ansys Fluent 流體模擬軟體、Ansys Granta MI 材料資料管理軟體和 Ansys Discovery 3D 模擬軟體,在設計階段的早期,評估所選電力來源的環境足跡。這種評估作業可讓工程師瞭解哪些區域、元件、材料、製程和其他因素對資料中心的環境足跡影響最大。
然後,工程團隊必須確保設施有足夠、乾淨且可靠的電力,才能有效率地運作。判斷資料中心的電力需求並不簡單,因為伺服器的電力需求會隨著工作負載和伺服器配置而波動。模擬解決方案如 Ansys Maxwell 進階電磁場求解器和 Ansys Q3D Extractor 寄生萃取電磁模擬軟體等,可協助評估電力需求,並最佳化負載平衡和電源品質。
然而,針對伺服器機房最值得關注的領域之一是冷卻系統。如果您曾經坐在電腦旁,就會知道它們能夠變得多熱。現在,將其乘以十。維持最佳伺服器機房溫度和濕度範圍,對於確保效能和硬體壽命至關重要。過熱可能導致停機,而不穩定的濕度可能導致腐蝕或靜電放電。工程師可以使用模擬解決方案,例如 Fluent 軟體、Ansys Icepak 電子散熱模擬軟體和 Ansys Thermal Desktop 熱中心建模軟體,修改佈局和設備規格,以實現最佳熱管理,避免昂貴的試錯程序和對額外冷卻的不必要投資。模擬解決方案也可以解決資料中心產生的聲學和雜訊輸出,使其盡可能減少對所在社區產生的干擾。
伺服器機房的工程考量
如果伺服器機架是資料中心的骨骼,晶片就是大腦。當今的晶片越來越多地在先進的多晶粒封裝中整合專用運算元件與記憶體。設計這些系統需要理解電性、熱效應與機械領域間的複雜交互作用,而這只能透過全面的多物理模擬來預測。電源傳遞網路與熱管理系統必須以整體方式進行分析,因為電性表現會影響熱分佈,而散熱又會影響電性表現,形成持續的回饋循環。這種相互依賴性對於 AI 工作負載中使用的神經處理單元 (NPU) 特別關鍵,因為它們在不同運算階段可能出現劇烈的功率波動。
同樣地,晶粒間的高頻寬、低功耗介面需要詳細的電磁分析,以確保訊號完整性,同時在日益嚴苛的功耗限制下運作。隨著晶粒間通訊速度的提升,這項挑戰愈加複雜。這種複雜性還延伸到跨多領域的電源完整性,因為 NPU 與其他專用處理器通常在不同的電壓層級與變動的功率需求下運作。
晶片中的機械應力則是另一項挑戰,因為複雜結構在組裝與運作過程中會經歷熱膨脹與收縮,導致參數因應力變化而偏移,進而影響可靠度與電性表現。
隨著系統設計從奈米級電晶體擴展到公分級封裝甚至更大規模,多尺度物理挑戰也變得愈發重要。如此廣泛的物理尺度範圍,需要能在不同尺度間順暢切換,同時維持準確度與計算效率的模擬工具,例如 Synopsys RedHawk-SC 電源完整性模擬軟體、用於簽核的 Synopsys Exalto 矽最佳化電磁建模軟體、用於大型 IP 和 3D 積體電路 (3D-IC) 的 Synopsys Pathfinder-SC 靜電放電可靠度簽核,以及其他新思科技高效能運算 (HPC) 和資料中心解決方案。
使用 Synopsys Redhawk-SC 軟體、Synopsys Exalto 軟體和 Synopsys Pathfinder-SC 軟體進行系統單晶片驗證
雖然充滿高效能晶片的伺服器機房吸引了對於 AI 資料中心的許多關注,但 AI 資料中心,為持續冷卻這些晶片而建構的系統所消耗的電力高達 60%。如果工程師可以減少伺服器機房內產生的熱,則可減少將這些機房冷卻至適當溫度所需的工作。
機架的配置方式,以及空氣或水如何流經機架和機房,都可能對能源需求產生重大影響。模擬軟體可以對多種機架和伺服器配置進行建模,讓工程師能夠找到運算效能、熱效能等的最佳組合。除了這些選項之外,工程師還可以整合冷卻解決方案的模擬,例如二相冷卻和浸沒式冷卻 (個別或結合),以判斷資料中心核心的最佳配置,進而最佳化運算效能、能源消耗、熱輸出、冷卻系統效率和成本。
然而,即使資料中心中的每個元素都是為了將耗電量和排熱降至最低而設計和製造,資料中心內的運作仍會產生熱。冷卻系統會從伺服器機房將熱抽出,而設計良好的資料中心,此熱能可透過熱交換和廢熱回收系統轉換回電力,然後在資料中心內重複使用此電力,以取代原本需要從發電系統中提取的電力。模擬解決方案,例如 Ansys Mechanical 結構模擬軟體、Fluent 軟體和 Thermal Desktop 軟體,可讓工程師找出機會,以最佳化整個 AI 資料中心的耗電量。
晶片層級的不同熱管理模擬 (左)。液冷與氣冷伺服器機房的熱管理模擬 (右)。
沒有任何一家製造商或設計人員能夠為最佳化的 AI 資料中心製作所需的每個元件。晶片公司打造晶片,伺服器和網路供應商會建構使用這些 GPU 的系統,而其他供應商則會建構加熱、通風和空調 (HVAC) 系統;電力調節和轉換系統;以及安全系統等。
建構 AI 資料中心的設計人員可以使用 Ansys TwinBuilder 模擬式數位孿生平台,使用其他製造商和供應商建立的元件和設施模擬,建立資料中心的數位孿生。製造商和供應商可以將自己的模型儲存為降階模型 (ROM) 格式,讓 AI 資料中心設計師能夠使用其資料中心元件的模擬。建立 AI 資料中心的數位孿生,讓設計人員能夠完整建模並調整資料中心效能的每個層面,涵蓋從運算效能到能源消耗。設計人員可以操控設計的各個層面來模擬變更,從而探索對排放或耗電量的影響,例如改變冷卻基礎架構中的某個元件,而所有這些都會在資料中心本身動土開工之前完成。
接著,在數位孿生中將最佳的設計建模後,數位孿生就會成為部署和橫向擴充資料中心本身的指南。建立資料中心後,數位孿生可以邏輯連接至資料中心,讓其可用於監控和管理效能層面。
AI 驅動的未來所帶來的能源需求令人震撼。然而,AI 所帶來的轉型潛力也是如此。透過正確的工具,設計人員可以建立資料中心,以實現 AI 推動的未來,並以確保運作時間和效能,同時將電力需求、能源浪費和負面環境影響降至最低的方式進行。