一些過熱的晶體管可能不會對可靠性產生很大影響,但數十億個晶體管產生的熱量會影響可靠性。對于 AI/ML/DL 設計尤其如此,高利用率會增加散熱,但熱密度會影響每個先進的節點芯片和封裝,這些芯片和封裝用于智能手機、服務器芯片、AR/VR 和許多其他高性能設備。對于所有這些,DRAM布局和性能現在是首要的設計考慮因素。
無論架構多么新穎,大多數基于 DRAM 的內存仍面臨因過熱而導致性能下降的風險。易失性內存的刷新要求(作為標準指標,大約每 64 毫秒一次)加劇了風險。“當溫度提高到 85°C 以上時,就需要更頻繁地刷新電容器上的電荷,設備就將轉向更頻繁的刷新周期,這就是為什么當設備變得越來越熱,電荷從這些電容器中泄漏得更快的原因。不幸的是,刷新該電荷的操作也是電流密集型操作,它會在 DRAM 內部產生熱量。天氣越熱,你就越需要更新它,但你會繼續讓它變得更熱,整個事情就會分崩離析。”
除了DRAM,熱量管理對于越來越多的芯片變得至關重要,它是越來越多的相互關聯的因素之一,必須在整個開發流程中加以考慮,封裝行業也在尋找方法解決散熱問題。選擇最佳封裝并在其中集成芯片對性能至關重要。組件、硅、TSV、銅柱等都具有不同的熱膨脹系數 (TCE),這會影響組裝良率和長期可靠性。
帶有 CPU 和 HBM 的流行倒裝芯片 BGA 封裝目前約為 2500mm 2。一個大芯片可能變成四五個小芯片,總的來說,這一趨勢會持續發展下去,因為必須擁有所有 I/O,這樣這些芯片才能相互通信。所以可以分散熱量。對于應用程序,這可能會對您有所一些幫助。但其中一些補償是因為你現在有 I/O 在芯片之間驅動,而過去你在硅片中需要一個內部總線來進行通信。
最終,這變成了一個系統挑戰,一系列復雜的權衡只能在系統級別處理。可以通過先進的封裝實現很多新事物,但現在設計要復雜得多,當一切都如此緊密地結合在一起時,交互會變多。必須檢查流量。必須檢查配電。這使得設計這樣的系統變得非常困難。
事實上,有些設備非常復雜,很難輕易更換組件以便為特定領域的應用程序定制這些設備。這就是為什么許多高級封裝產品適用于大批量或價格彈性的組件,例如服務器芯片。對具有增強散熱性能的制造工藝的材料需求一直在強勁增長。
液冷技術成為最佳選項
日前,英偉達發布了率先采用直接芯片(Direct-to-Chip)冷卻技術的數據中心 PCIe GPU,為可持續發展貢獻了自己的力量。
Equinix 正在驗證 A100 80GB PCIe 液冷 GPU 在其數據中心的應用,這也是該公司為實現可持續性冷卻和熱量捕獲的綜合性方案中的一部分。GPU 現已進入試用階段,預計將于今年夏季正式發布。
Equinix 是一家全球服務提供商,旗下管理的數據中心超過 240 個,致力于在業內率先實現氣候中和。
Equinix 通過優化電源使用效率 (PUE),以期減少對環境的影響。PUE 是一種行業指標,用于衡量數據中心使用的能源有多少直接用于計算任務。
數據中心運營商正試圖將 PUE 降至接近 1.0 的理想水平。Equinix 設施目前的平均PUE為 1.48,而其旗下新數據中心的 PUE 最低可低于 1.2。
在單獨的測試中,Equinix 和 NVIDIA 均發現:采用液冷技術的數據中心工作負載可與風冷設施持平,同時消耗的能源減少了約 30%。NVIDIA 估計,液冷數據中心的 PUE 可能達到 1.15,遠低于風冷的 PUE 1.6。
在空間相同的條件下,液冷數據中心可以實現雙倍的計算量。這是由于 A100 GPU 僅使用一個 PCIe 插槽,而風冷 A100 GPU 需使用兩個 PCIe 插槽。
“這是我們實驗室中引入的首款液冷 GPU,我們倍感興奮,因為客戶迫切希望通過可持續的方式來利用 AI。”Equinix 邊緣基礎設施主管 Zac Smith說道。
數據中心運營商旨在淘汰用于冷卻數據中心內部氣體的冷水機組,因其每年會蒸發數百萬加侖的水量。而借助液冷技術,系統僅需對封閉系統中的少量液體進行循環利用,并能夠著重于主要的發熱點。
至少有十幾家系統制造商計劃于今年晚些時候在其產品中使用液冷 GPU,包括華碩(ASUS)、永擎電子(ASRock Rack)、富士康工業互聯網(Foxconn Industrial Internet)、技嘉科技(GIGABYTE)、新華三(H3C)、浪潮(Inspur)、英業達(Inventec)、寧暢(Nettrix)、云達科技(QCT)、 超微(Supermicro)、 緯穎科技(Wiwynn)和超聚變(xFusion)。
液冷技術的使用范圍并不局限于數據中心,汽車和其他系統也需要利用該項技術來冷卻封閉空間內的高性能系統。
硅同位素導熱性比傳統硅好150%
隨著科技進步,許多電子產品尺寸越做越小,但由于電流一通過就產生熱,所以過熱成為電子設備縮小尺寸的一大阻礙。科學家發現,從硅的同位素所制成的納米線,比普通硅的導熱性還好150%,未來有望應用在計算機芯片,使其溫度大幅降低。
當電子系統運行時,電流產生大量的熱,累計久了就會損壞組件,因此科技業也開始發展冷卻技術,但隨著電子產品越來越小,有效散熱更加困難。
研究人員發現,硅的同位素“硅-28”(Si-28),有助于制造出冷卻性能超乎預期的計算機芯片。至少有92%的硅以硅-28的形式存在,另外5%為硅-29(Si-29),剩下為硅-30(Si-30)。雖然這些同位素具有相同的電子功能,但以往研究發現,硅-29和硅-30中的“雜質”會中斷熱量流動。
至于用硅-28所制成的散裝組件,可提高10%熱傳導性,但并不值得付出額外成本制作。研究人員之后使用硅-28制成的納米線,發現導熱性意外地好,原本預計可改善20%效果,想不到性能竟比天然硅制成的納米線好150%。
原因是納米線外部形成一層二氧化硅(silicon dioxide),撫平了散熱時的粗糙表面,線內部因為沒有其他同位素的問題,熱量能順利地通過納米線的核心。
這有助于新的計算機芯片研發,讓這些芯片更有效地將熱量發送出去,不過從其他同位素中分離出硅-28相當困難且昂貴,但相信未來在這方面也能取得進展。
封裝行業正在采用新技術應對芯片散熱問題
工程師們正在尋找新的方法來在封裝模塊構建之前對封裝可靠性進行熱分析。例如,西門子提供了一個基于雙 ASIC 的模塊的示例,該模塊包含一個扇出再分布層 (RDL),該扇出再分配層 (RDL) 安裝在 BGA 封裝中的多層有機基板頂部。它使用了兩種模型,一種用于基于 RDL 的 WLP,另一種用于多層有機基板 BGA。這些封裝模型是參數化的,包括在引入 EDA 信息之前的襯底層堆疊和 BGA,并支持早期材料評估和芯片放置選擇。接下來,導入 EDA 數據,對于每個模型,材料圖可以對所有層中的銅分布進行詳細的熱描述。
量化熱阻
如何通過硅芯片、電路板、膠水、TIM 或封裝蓋傳遞是眾所周知的。存在標準方法來跟蹤每個界面處的溫度和電阻值,它們是溫差和功率的函數。
“熱路徑由三個關鍵值來量化——從器件結到環境的熱阻、從結到外殼(封裝頂部)的熱阻以及從結到電路板的熱阻,”
詳細的熱模擬是探索材料和配置選項的最便宜的方法。“運行芯片的模擬通常會識別一個或多個熱點,因此我們可以在熱點下方的基板中添加銅以幫助散熱或更換蓋子材料并添加散熱器等。對于多個芯片封裝,我們可以更改配置或考慮采用新方法來防止熱串擾。有幾種方法可以優化高可靠性和熱性能,”
在模擬之后,包裝公司執行實驗設計 (DOE) 以達到最終的包裝配置。但由于使用專門設計的測試車輛的 DOE 步驟耗時且成本更高,因此首先利用仿真。
選擇 TIM
在封裝中,超過 90% 的熱量通過封裝從芯片頂部散發到散熱器,通常是帶有垂直鰭片的陽極氧化鋁基。具有高導熱性的熱界面材料 (TIM) 放置在芯片和封裝之間,以幫助傳遞熱量。用于 CPU 的下一代 TIM 包括金屬薄板合金(如銦和錫)和銀燒結錫,其傳導功率分別為 60W/mK 和 50W/mK。
隨著公司從大型 SoC 過渡到小芯片模塊,需要更多種類的具有不同特性和厚度的 TIM。
Amkor 研發高級總監 YoungDo Kweon 在最近的一次演講中表示,對于高密度系統,芯片和封裝之間的 TIM 的熱阻對封裝模塊的整體熱阻具有更大的影響。“功率趨勢正在急劇增加,尤其是在邏輯方面,因此我們關心保持低結溫以確保可靠的半導體運行,”Kweon 說。他補充說,雖然 TIM 供應商為其材料提供熱阻值,但從芯片到封裝的熱阻,在實踐中,受組裝過程本身的影響,包括芯片和 TIM 之間的鍵合質量以及接觸區域。他指出,在受控環境中使用實際裝配工具和粘合材料進行測試對于了解實際熱性能和為客戶資格選擇最佳 TIM 至關重要。
孔洞是一個特殊的問題。“材料在封裝中的表現方式是一個相當大的挑戰。你已經掌握了粘合劑或膠水的材料特性,材料實際潤濕表面的方式會影響材料呈現的整體熱阻,即接觸電阻,”西門子的 Parry 說。“而且這在很大程度上取決于材料如何流入表面上非常小的缺陷。如果缺陷沒有被膠水填充,它代表了對熱流的額外阻力。”
以不同的方式處理熱量
芯片制造商正在擴大解決熱量限制的范圍。“如果你減小芯片的尺寸,它可能是四分之一的面積,但封裝可能是一樣的。是德科技內存解決方案項目經理 Randy White 表示,由于外部封裝的鍵合線進入芯片,因此可能存在一些信號完整性差異。“電線更長,電感更大,所以有電氣部分。如果將芯片的面積減半,它會更快。如何在足夠小的空間內消散這么多的能量?這是另一個必須研究的關鍵參數。”
這導致了對前沿鍵合研究的大量投資,至少目前,重點似乎是混合鍵合。“如果我有這兩個芯片,并且它們之間幾乎沒有凸起,那么這些芯片之間就會有氣隙,”Rambus 的 Woo 說。“這不是將熱量上下移動的最佳導熱方式。可能會用一些東西來填充氣隙,但即便如此,它還是不如直接硅接觸好。因此,混合直接鍵合是人們正在做的一件事。”
但混合鍵合成本高昂,并且可能仍僅限于高性能處理器類型的應用,臺積電是目前僅有的提供該技術的公司之一。盡管如此,將光子學結合到 CMOS 芯片或硅上 GaN 的前景仍然巨大。
而且華為也采取了芯片封裝的方法為芯片降溫。2021年,華為技術有限公司之前公開了“芯片封裝組件、電子設備及芯片封裝組件的制作方法”專利,公開號為 CN113707623A。
企查查專利摘要顯示,本申請公開了一種芯片封裝組件、電子設備及芯片封裝組件的制作方法。
芯片封裝組件包括封裝基板、芯片和散熱部,封裝基板包括上導電層、下導電層和連接在上導電層和下導電層之間的導電部;芯片包括相背設置的正面電極和背面電極,芯片內嵌在封裝基板內,導電部包圍芯片,正面電極與下導電層連接,背面電極與上導電層連接;散熱部連接于上導電層遠離芯片的表面;上導電層、下導電層和導電部均具導熱性能。
本申請通過設置芯片與封裝基板的上導電層以及下導電層連接,從而芯片產生的熱量可進行雙向傳導散熱,并在上導電層上設置散熱部,使得芯片封裝組件能夠達到更優的散熱效果。
當前,電子設備越來越輕薄,芯片封裝組件的集成度越來越高,存在著較為嚴重的散熱問題,芯片無法得到有效散熱的話,會有一定的安全隱患,華為這項專利可以較好的解決部分散熱問題。