Neue High-Bandwidth-Memory-Architektur HBM-PIM: Spezial-Speicher für KI-Workloads

Michael Eckstein

Anbieter zum Thema

Doppelte Systemleistung, 70% weniger Stromverbrauch: Samsungs neue HBM-Speicher mit integrierter Processing-in-Memory-Architektur sollen KI-Anwendungen beschleunigen – vom Training im Rechenzentrum bis zur Inferenz auf mobilen Endgeräten. Was steckt dahinter?

Flaschenhals weiten: Direkt in den Speicher integrierte, programmierbare Recheneinheiten (PCU) sollen die Datenbewegungen soweit wie möglich reduzieren und so die Systemleistung beflügeln.
Flaschenhals weiten: Direkt in den Speicher integrierte, programmierbare Recheneinheiten (PCU) sollen die Datenbewegungen soweit wie möglich reduzieren und so die Systemleistung beflügeln.
(Bild: Samsung)

Vor rund drei Jahren hat Samsung seinen schnellen HBM2-Speicher (High Memory Bandwidth der zweiten Generation) vorgestellt. Nach einigen Iterationsschritten folgt nun die nächste große Evolutionsstufe: Der südkoreanische Elektronikriese hat Blöcke in seinen Highend-Speicher integriert, die explizit für das Verarbeiten von Künstliche-Intelligenz-(KI-)Algorithmen vorgesehen sind. Nach eigenen Angaben bringe diese neue Processing-in-Memory (PIM)-Architektur „leistungsstarke KI-Computing-Funktionen in den Hochleistungsspeicher, um die Verarbeitung großer Datenmengen in Rechenzentren, High-Performance-Computing-Systemen und KI-fähigen mobilen Anwendungen zu beschleunigen“.

HBM-PIM sei die branchenweit erste PIM-Lösung, die ganz unterschiedliche „KI-getriebene Workloads wie HPC, Training und Inferenz“ verarbeiten können, sagt Kwangil Park, Senior Vice President of Memory Product Planning bei Samsung Electronics. Gemeinsam mit KI-Lösungsanbietern werde man „auf diesem Durchbruch aufbauen und noch fortschrittlichere PIM-gestützte Anwendungen“ entwickeln.

Die meisten der heutigen Computersysteme basieren auf der von-Neumann-Architektur, die separate Prozessor- und Speichereinheiten verwendet. Bei diesem sequenziellen Verarbeitungsansatz müssen Millionen von Daten ständig hin- und hergeschoben werden, um sie verarbeiten zu können. Angesichts der rasant wachsenden Datenmengen ist die Speicherschnittstelle längst zum systemverlangsamenden Engpass geworden.

FIMDRAM soll erforderliche Datenbewegung minimieren

Die neue HBM-PIM-Architektur stellt die Verarbeitungsleistung laut Samsung nun genau dort bereit, wo die Daten gespeichert sind. Dafür haben die Entwickler eine DRAM-optimierte KI-Engine (Programmable Computing Unit, PCU) in jeder Speicherbank – einer Speicheruntereinheit – platziert, was eine weitgehend parallele Verarbeitung der Daten ermöglichen und die Datenbewegung minimieren soll. Dieses Konstrukt nennt Samsung „Function-in-Memory DRAM“, kurz FIMDRAM.

Bei Anwendung auf Samsungs bestehende HBM2-Aquabolt-Lösung ist die neue Architektur nach eigenen Angaben in der Lage, mehr als die doppelte Systemleistung zu liefern und gleichzeitig den Energieverbrauch um mehr als 70 % zu reduzieren. Erfreulich für Anwender: HBM-PIM erfordert laut Samsung keine Änderungen an der Hardware oder Software, was eine schnellere Integration in bestehende Systeme ermöglicht.

Programmierbare KI-Recheneinheiten im Speicher-Sandwich

Details zur neuen HBM-PIM-Architektur hat Samsung auf der International Solid-State Circuits Virtual Conference (ISSCC) präsentiert. Wie den herkömmlichen HBM2-Speicher fertigt Samsung auch den HBM-PIM-Speicher als 3D-integrierten Sandwich-Chip. Allerdings stapelt der Hersteller zunächst vier FIMDRAM-Dies auf das Basis-Substrat mit der grundlegenden Schaltungslogik, bevor weitere vier Lagen HBM-Dies folgen. In jedem FIMDRAM-Chip stecken 32 der KI-Recheneinheiten, die jeweils mit 300 MHz takten. Laut Samsung kann jede Einheit verschiedene 16-Bit-Fließkommaoperationen ausführen. Insgesamt ergibt sich so eine Verarbeitungsleistung von 1,2 TFLOPS pro Speicherchip (4 x 32 x 32 Byte x 300 MHz).

Die PCUs benötigen Platz auf den FIMDRAM-Dies, der nicht mehr für HBM-Speicherzellen zur Verfügung steht. Deswegen haben die FIMDRAM-Dies nur die halbe Speicherkapazität der HBM2-Dies, nämlich 4 GBit. Durch die oben genannte Konstellation – vier HBM2-Dies über vier FIMDRAM-Dies – ergibt sich eine Gesamtspeicherkapazität von 6 GByte pro HBM-PIM-Chip – statt 8 GByte bei regulärem HBM2-Speicher.

Nun muss sich in der Praxis zeigen, inwieweit die 1,2 TFLOPS speichernahe Rechenleistung hilft, KI-Projekte zu beschleunigen. Zum Vergleich: Spezialisierte KI-Beschleunigern wie Nvidias A100 mit Tensor Cores und Sparsity-Packing-Algorithmen erreichen bis zu 624 TFLOPS. Laut Samsung durchläuft der HBM-PIM-Speicher derzeit die Test- und Validierungsphase bei KI-Lösungsanbietern. Diese werde voraussichtlich noch in der ersten Hälfte 2021 abgeschlossen sein.

(ID:47157525)

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung