Kombinierte Strategien zur Begrenzung der Temperatur Memory-Stacks auf Grafikprozessoren: Thermische Engpässe entschärft

Von Kristin Rinortner 2 min Lesedauer

Anbieter zum Thema

Neuer Boost für KI-Chips? Bei 3D-HBM-on-GPU-Architekturen können die GPU-Spitzentemperaturen unter realistischen KI-Trainingslasten von 141,7 auf 70,8 °C gesenkt werden. Das demonstrierte imec auf der IEDM 2025. Dies gelingt durch die gleichzeitige Optimierung von Technologie und Ansätzen zur thermischen Entlastung auf Systemebene.

Ganzheitlicher Ansatz zur System-Technologie-Ko-Optimierung (STCO) als Schlüsselfaktor für die Senkung der GPU- und HBM-Spitzentemperaturen unter KI-Arbeitslasten bei gleichzeitiger Erhöhung der Leistungsdichte zukünftiger GPU-basierter Architekturen.(Bild:  imec)
Ganzheitlicher Ansatz zur System-Technologie-Ko-Optimierung (STCO) als Schlüsselfaktor für die Senkung der GPU- und HBM-Spitzentemperaturen unter KI-Arbeitslasten bei gleichzeitiger Erhöhung der Leistungsdichte zukünftiger GPU-basierter Architekturen.
(Bild: imec)

Die Integration von HBM-Stacks (High Bandwidth Memory) direkt auf Grafikprozessoren (GPUs) bietet einen attraktiven Ansatz für den Aufbau von Rechenarchitekturen der nächsten Generation für datenintensive KI-Workloads. „3D-HBM-on-GPU“ versprechen einen enormen Sprung in der Rechendichte (mit vier GPUs pro Gehäuse), dem Speicher pro GPU und der GPU-Speicherbandbreite im Vergleich zur aktuellen 2,5D-Integration, bei der HBM-Stacks um (eine oder zwei) GPUs herum auf einem Silizium-Interposer platziert werden.

Der Ansatz zur 3D-Integration ist jedoch aufgrund der höheren lokalen Leistungsdichte und des vertikalen Wärmewiderstands auch mit thermischen Herausforderungen behaftet.

Bildergalerie

Auf dem „International Electron Devices Meeting“ (IEDM) 2025 hat imec die eigenen Angaben zufolge erste umfassende Studie zur thermischen Simulation zur 3D-HBM-on-GPU-Integration vorgestellt. In der Studie werden nicht nur thermische Engpässe identifiziert, sondern auch Strategien zur Verbesserung der thermischen Realisierbarkeit der Architektur vergeschlagen. Die Wissenschaftler zeigen, wie durch die gemeinsame Optimierung von Technologie und Ansätzen zur thermischen Entlastung auf Systemebene die GPU-Spitzentemperaturen unter realistischen KI-Trainingslasten von 141,7°C auf 70,8°C gesenkt werden können.

HBM-Stapel: Kühlung von oben

Das Modell geht von vier HBM-Stapeln aus, die jeweils aus zwölf hybrid-gebundenen DRAM-Dies bestehen und mithilfe von Microbumps direkt auf einer GPU platziert werden. Die Kühlung erfolgt oben auf den HBMs. Aus branchenüblichen Leistungsprofilen abgeleitete Leistungskarten werden verwendet, um lokale Hotspots zu identifizieren und sie mit einer 2,5D-Basis zu vergleichen.

Ohne Wärmeschutzstrategien ergibt das 3D-Modell eine GPU-Spitzentemperatur von 141,7 °C – viel zu hoch für den GPU- und HBM-Betrieb –, während der Benchmark zur 2,5D-Integration unter denselben Kühlbedingungen einen Spitzenwert von 69,1 °C aufweist. Diese Daten wurden als Ausgangspunkt verwendet, um die Auswirkungen von Strategien zur Verringerung der thermischen Belastung auf Technologie- und Systemebene zu bewerten.

Zu den Strategien auf Technologieebene gehören unter anderem die Zusammenlegung von HBM-Stapeln und die Optimierung des thermischen Siliziums. Auf Systemebene wurden die Auswirkungen einer doppelseitigen Kühlung sowie der GPU-Frequenzskalierung bewertet.

James Myers, System Technology Program Director bei imec: „Durch die Halbierung der GPU-Kernfrequenz konnte die Spitzentemperatur von 120°C auf unter 100°C gesenkt werden, wodurch ein wichtiges Ziel für den Speicherbetrieb erreicht wurde. Obwohl dieser Schritt mit einem Verlust von 28 % der Arbeitslast einhergeht (d. h. eine Verlangsamung der KI-Trainingsschritte), übertrifft das Gesamtpaket die 2,5D- Basiskonfiguration dank der höheren Durchsatzdichte, die die 3D-Konfiguration bietet. Wir verwenden diesen Ansatz derzeit, um andere GPU/HBM-Konfigurationen zu untersuchen (z. B. die Platzierung von GPUs auf HBMs), wobei wir künftige thermische Beschränkungen vorwegnehmen.“

Julien Ryckaert, Vice President Logic Technologies bei imec ergänzt: „Dies ist auch das erste Mal, dass wir die Fähigkeiten von imecs technologieübergreifendem Co-Optimierungsprogramm (XTCO) beim Aufbau thermisch robusterer Rechensysteme demonstrieren. XTCO wurde 2025 ins Leben gerufen, um die Technologie-Roadmaps effizient mit den wichtigsten Herausforderungen der Industrie bei der Skalierung von Systemen abzustimmen. Sie basiert auf vier kritischen Säulen auf Systemebene: Rechendichte, Energieversorgung, thermische Eigenschaften sowie Speicherdichte und -bandbreite.“

Unternehmen aus dem gesamten Halbleiter-Ökosystem sind eingeladen, sich dem XTCO-Programm anzuschließen und gemeinsam kritische Engpässe bei der Skalierung von Systemen zu beseitigen.(kr)

(ID:50653047)

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung