Energieeffizientes Maschinelles Lernen KI-Turbo: Analoges In-Memory-Computing mit neuartigem DRAM

Von Subhali Subhechha, Attilio Belmonte, Gouri Sankar Kar * 10 min Lesedauer

Anbieter zum Thema

Imec-Forscher haben erstaunlich einfache Speicherzellen auf Basis von Indium-Gallium-Zink-Oxid für analoges In-Memory-Computing demonstriert. Dieses gilt als Schlüsseltechnologie für energieeffizientes Inferencing, also das Anwenden trainierter Neuronaler Netze etwa an der Edge.

Simpel und effizient: Schema einer 2T1C-DRAM-Verstärkerzelle.(Bild:  Imec)
Simpel und effizient: Schema einer 2T1C-DRAM-Verstärkerzelle.
(Bild: Imec)

Maschinelles Lernen, ein Teilbereich der künstlichen Intelligenz, ist aus unserem Leben nicht mehr wegzudenken. Es ermöglicht uns, mithilfe von komplexen neuronalen Netzwerkalgorithmen aus Daten zu lernen und Schlussfolgerungen zu ziehen. Dazu zählen etwa datenintensive Aufgaben wie das Klassifizieren von Bildern und das Modellieren von Sprache.

Der ML-Prozess besteht aus zwei Phasen. Die erste ist die Trainingsphase, in der die Intelligenz durch Speichern und Kennzeichnen von Informationen mit Bewertungen entwickelt wird – ein sehr rechenintensiver Vorgang, der normalerweise in großen Cloud-Rechenzentren durchgeführt wird. In dieser Phase wird der ML-Algorithmus mit einem ausgesuchten Datensatz gefüttert. Die Gewichtungen werden so lange optimiert, bis das neuronale Netzwerk Vorhersagen mit dem gewünschten Präzisionsgrad machen kann.

Bildergalerie
Bildergalerie mit 6 Bildern

Inferenz: Zweite Phase des Maschinellen Lernens

In der zweiten Phase, die als Inferenz bezeichnet wird, verwendet die Maschine die in der ersten Phase erworbenen Kenntnisse, um ihr bislang unbekannte Daten zu verarbeiten. Die wichtigsten Operationen für die Inferenz sind Matrix-Vektor-Multiplikationen einer Gewichtsmatrix und eines Eingabevektors. Wenn zum Beispiel ein Modell für die Bildklassifizierung trainiert wurde, enthält der Eingabevektor die Pixel der unbekannten Bilder.

Die Gewichtungsmatrix enthält alle verschiedenen Parameter, anhand derer die Bilder identifiziert werden können und die während der Trainingsphase als Gewichtungsfaktoren gespeichert wurden. Bei großen und komplexen Problemen ist diese Matrix in verschiedenen Schichten organisiert. Die Eingabedaten werden durch das neuronale Netz geleitet, um die Ausgabe zu berechnen: eine Vorhersage dessen, was auf dem Bild zu sehen ist – zum Beispiel eine Katze, ein Mensch oder ein Auto.

Bislang sehr hoher Aufwand für die Datenverarbeitung

Technisch betrachtet werden die Eingaben und Gewichtungen in der Regel in herkömmlichen Speichern abgelegt und bei Bedarf an die Verarbeitungseinheit weitergeleitet, die dann die Multiplikationen durchführt. Bei komplexen Problemen muss daher eine gigantische Menge an Daten bewegt werden, was die Energieeffizienz und Geschwindigkeit beeinträchtigt und zudem einen großen ökologischen Fußabdruck erzeugt.

Ein Großteil dieses Datenverkehrs kann jedoch vermieden werden, wenn die Rechenarbeit – zumindest teilweise – im Speicher selbst erfolgen kann. Energieeffizient implementiert lassen sich derartige In-Memory-Berechnungen auch am Edge ausführen. Dadurch verringert sich die Abhängigkeit der Inferenz von der Cloud, was die Latenzen und den Energieverbrauch erheblich verringern kann.

Eine generische Architektur für analoges In-Memory-Computing

Im Gegensatz zu herkömmlichen Speicheroperationen erfolgt die Berechnung im Speicher nicht auf der Granularität eines einzelnen Speicherelements. Stattdessen handelt es sich um eine kumulative Operation, die auf einer Gruppe von Speicherbausteinen ausgeführt wird, wobei die Organisation auf Array-Ebene, die Peripherieschaltung und die Steuerlogik genutzt werden. Der gemeinsame Schritt ist eine Multiplikations-Akkumulations-Operation (MAC), bei der das Produkt zweier Zahlen berechnet und zu einem Akkumulator addiert wird.

Während die In-Memory-Berechnung auch digital durchgeführt werden kann, konzentriert sich dieser Beitrag auf die analoge Implementierung unter Verwendung tatsächlicher Strom- oder Ladungswerte. Analoges In-Memory-Computing (AiMC) bietet mehrere Vorteile gegenüber der digitalen Variante. Unter der Voraussetzung, dass eine mehrstufige Programmierung möglich ist, kann jede Zelle leichter mehrere Bits an Informationen repräsentieren (sowohl bei den Gewichtungen als auch bei den Eingaben), wodurch sich die Anzahl der Speicherbausteine reduzieren lässt. Außerdem bietet die Arbeit mit Ladungen oder Strömen nach den Kirchoff'schen Schaltungsgesetzen eine fast natürliche Möglichkeit, die MAC-Operationen durchzuführen.

In einer generischen AiMC-Architektur werden die Aktivierungssignale vom Eingang (oder von der vorgelagerten Schicht) zunächst mithilfe von Digital-Analog-Wandlern (DACs) auf den Aktivierungsleitungen in analoge Signale umgewandelt (Bild 1). Die analoge Aktivierung (acti) wird dann mit den Gewichtungen (wij) multipliziert und in einem Array von Speicherzellen gespeichert. Jede Zelle trägt wij.acti als Strom oder Ladung zur Summationsleitung bei. Auf der Summationsleitung ist die Ausgabe die Summe aller Beiträge. Die Ausgabe wird dann in digitale Werte umgewandelt. Nach der Nachbearbeitung werden die Ergebnisse an die nächste Schicht oder einen Pufferspeicher übertragen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Auf der Suche nach einer geeigneten Speichertechnologie

Die meisten AiMC-basierten Systeme für maschinelles Lernen basieren heute auf der herkömmlichen SRAM-Technologie (Static Random Access Memory). SRAM-basierte Lösungen haben sich jedoch als teuer, leistungsintensiv und schwierig zu skalieren erwiesen, wenn es um größere Rechendichten geht. Um diese Probleme zu überwinden, erforscht die KI-Gemeinschaft alternative Speichertechnologien.

Auf den ISSCC- und IEDM-Konferenzen 2019 präsentierte Imec eine Benchmark-Studie zu verschiedenen Speichertechnologien für energieeffiziente Inferenzanwendungen [1,2]. Die Analyse verknüpfte das Schaltungsdesign mit Technologieoptionen und -anforderungen und prognostizierte eine Energieeffizienz von 10.000 Tera-Operationen pro Sekunde pro Watt (TOPS/W), was deutlich über der Effizienz der modernsten digitalen Implementierungen liegt. Die Forscher haben einen hohen Zellwiderstand oder niedrigen Zellstrom, eine geringe Variation und eine kleine Zellfläche als Schlüsselparameter identifiziert.

Diese Spezifikationen schränken die Verwendung der gängigsten Zelltypen ein, darunter Spin-Torque-Transfer Magnetic RAM (STT-MRAM) und Resistive RAM (ReRAM). Resistive Speichertypen speichern die Gewichtungen als Leitfähigkeit und kodieren die Aktivierung als Spannungspegel. Eines der Probleme bei ohmschen Speichern ist der IR- oder Spannungsabfall, der sowohl auf den Aktivierungs- als auch auf den Summierungsleitungen auftritt und die Ausgabe beeinträchtigt. Darüber hinaus ist ein Selektor für einen optimierten Zellzugriff innerhalb des Arrays erforderlich, was die Zellfläche vergrößert und die Spannungsverteilung erschwert. Phasenwechsel-Speicher (PCM oder PCRAM) sind durch ähnliche Probleme limitiert. Bei Spin-Orbit-Torque-MRAM (SOT-MRAM) sind der hohe Strom, der zum Schalten des Bauelements benötigt wird, und das niedrige On/Off-Verhältnis der Zelle ein Nachteil, aber nicht unbedingt ein Hindernis.

Von allen untersuchten Speichertechnologien identifizierten die Imec-Forscher ein Indium-Gallium-Zink-Oxid (IGZO)-basiertes 2-Transistor-1-Kondensator (2T1C)-Bauelement als den vielversprechendsten Kandidaten für AiMC. Die 2T1C-Zelle, die ursprünglich für DRAM-Anwendungen vorgeschlagen wurde, hat zwei wesentliche Vorteile gegenüber SRAM für AiMC-Anwendungen. Erstens ermöglicht sie einen deutlich niedrigeren Stromverbrauch im Standby-Modus. Zweitens können die IGZO-Transistoren im Back-End-of-Line (BEOL) des Chips verarbeitet werden, wo sie über die Peripherieschaltung gestapelt werden können, die sich im Front-End-of-Line (FEOL) befindet. Auf diese Weise wird kein FEOL-Footprint für den Aufbau des Speicherarrays benötigt. Darüber hinaus ermöglicht die IGZO-Technologie auch das Stapeln mehrerer Zellen übereinander, was ein dichteres Array ermöglicht.

Entwicklung von IGZO-basierten 2T1C-Komponenten für AiMC-Anwendungen

Auf dem International Memory Workshop (IMW) 2023 widmeten sich die Forscher den verbleibenden Herausforderungen: Optimierung der Retentionszeit der Gain-Zelle, Erforschung einer möglichen Multilevel-Programmierung und Demonstration des MAC-Betriebs in einer Array-Konfiguration [3].

Jede Speicherzelle innerhalb der Gewichtungsmatrix besteht aus einem Kondensator und zwei IGZO-Transistoren. Ein Transistor dient als Schreibtransistor, mit dem die Gewichtung als Spannung am (Speicherknoten-)Kondensator programmiert wird, der mit dem Gate des zweiten Transistors verbunden ist. Der zweite Transistor ist als Lesetransistor ausgelegt und fungiert als Stromquellenelement, das ein zerstörungsfreies Auslesen ermöglicht. Der Strom durch den Lesetransistor hängt sowohl vom Aktivierungseingang als auch von dem im Speicherknotenkondensator gespeicherten Gewicht ab. Dieser Strom stellt daher natürlich die Ausgabe der Multiplikationsoperation dar (wij.acti). Da der Auslesestrom im Vergleich zum Speicherladungsfluss verstärkt wird, werden 2T1C-Zellen auch als „Verstärkungszellen“ bezeichnet.

Um für energieeffiziente MAC-Operationen geeignet zu sein, müssen die drei Schlüsselkomponenten der Zelle einige Zielvorgaben erfüllen: lange Retentionszeit, geringe Off-Ströme und geeignete On-Ströme.

Die Retentionszeit der Gain-Zelle bestimmt, wie lange die Zelle die programmierte Gewichtung speichern kann. Je länger die Retentionszeit, desto seltener muss die Zelle aufgefrischt werden, was sich positiv auf den Stromverbrauch auswirkt. Eine lange Retentionszeit ist auch für den Multilevel-Betrieb erforderlich, d.h. für die Fähigkeit, verschiedene Spannungsniveaus auf dem Speicherknotenkondensator zu speichern.

Problem: Leckströme können Ergebnis verfälschen

Die Kapazität des Speicherknotens wird durch den externen Kondensator, die Gate-Oxid-Kapazität des Lesetransistors und eine parasitäre Kapazität bestimmt. Die programmierte Gewichtung kann sich aufgrund von Leckströmen ändern. Dies stellt Anforderungen an die Leckströme des externen Kondensators und der IGZO-Transistoren – für letztere sind niedrige Aus-Ströme erforderlich.

Die Lese- und Schreibtransistoren unterscheiden sich hauptsächlich durch den angestrebten Einschaltstrom. Während für den Lesetransistor ein niedriger Einschaltstrom erforderlich ist, um den IR-Abfall zu begrenzen, muss der Einschaltstrom des Schreibtransistors hoch genug sein, um die Gewichtung in einer angemessenen Schreibzeit zu programmieren – d.h. größer als 1 µA/µm.

Amorphe Transistoren und Kondensatoren auf IGZO-Basis wurden so entwickelt, dass sie die verschiedenen Kriterien erfüllen und auf 300-mm-Wafern hergestellt werden können. Die vorgestellte Lösung ist CMOS- und BEOL-kompatibel und benötigt keinen FEOL-Footprint für die Herstellung des Speicherarrays. Der hohe Einschaltstrom und der niedrige Ausschaltstrom des Schreibtransistors wurden durch eine Gate-Last-Konfiguration mit einem Sauerstoff-Tunnelmodul und erhöhten Source/Drain-Kontakten sowie durch die Verwendung eines relativ dicken Gate-Dielektrikums (15 nm) erreicht. Der Lesetransistor hat einen dünneren a-IGZO-Kanal (5 nm) und ein dünneres Gate-Dielektrikum (5 nm). Für den externen Kondensator haben die Forscher einen 9 nm dicken Metall-Isolator-Metall-Kondensator (MIM) auf Al2O3-Basis verwendet.

Hohe Retention, Multi-Level-Programmierung und MAC-Betrieb: Experimentelle Demonstration

Da die Lese- und Schreibtransistoren unterschiedlich konstruiert sind, können sie idealerweise in verschiedenen Schichten integriert werden, um die 3D-Stapelbarkeit der IGZO-Transistoren zu nutzen und dichtere Arrays zu ermöglichen. Um ein Proof-of-Concept für MAC-Operationen zu erhalten, reicht es jedoch aus, Lese- und Schreibtransistoren mit ähnlichem Design (nämlich das Design der Schreibtransistoren) zu implementieren.

Zunächst wurden die Retentionszeit und der Ausschaltstrom einer einzelnen 2T1C-Zelle gemessen. Die Experimente ergaben eine Retentionszeit von bis zu 130 s und einen mittleren Ausschaltstrom von nur 1,5 x 10-19 A/µm, was auf die geringe Bandlücke des IGZO-Kanalmaterials zurückzuführen ist.

Um den Multilevel-Betrieb zu demonstrieren, wurden verschiedene Einheiten auf unterschiedliche Gewichtungen programmiert und die Entwicklung der Spannungen der Speicherknoten überwacht. Selbst nach 400 s konnten noch unterschiedliche Spannungsniveaus beobachtet werden, was die Fähigkeit zur Multilevel-Programmierung mit einer Zelle zeigt.

Als nächstes wurden die 2T1C-Gain-Zellen in einer 2x2-Array-Konfiguration implementiert, um den MAC-Betrieb zu überprüfen. Die Forscher beobachteten einen erhöhten Lesestrom auf der Summenleitung, wenn zwei Zellen auf derselben Aktivierungsleitung aktiviert wurden (mit gleich gespeicherten Gewichtungen auf den Kondensatorknoten). Dieser Strom war fast genauso hoch wie die Summe der Ströme, die nach der Aktivierung jeder einzelnen Zelle gemessen wurden.

Die Ergebnisse wurden auf 4x2-Arrays ausgedehnt. In einer anderen Reihe von Experimenten wurde eine Veränderung des Stroms der Summationslinie beobachtet, wenn die gespeicherten Gewichtungen oder die Aktivierungen verändert wurden. Diese Messungen zeigen, dass die 2T1C Verstärkungszellen mit IGZO erfolgreich für Matrix-Vektor-Multiplikationen in Machine-Learning-Anwendungen eingesetzt werden können.

Von 2T1C auf 2T0C: Kosten und Flächenverbrauch reduzieren

Bei der 2T1C-Zelle wurde eine hohe Retentionszeit erreicht, indem die Transistoren und der externe Kondensator für einen niedrigen Aus-Strom bzw. eine hohe Kapazität optimiert wurden. Frühere Arbeiten, die von Imec im Rahmen von (3D) DRAM-Anwendungen durchgeführt wurden, haben jedoch gezeigt, dass eine lange Retentionszeit auch in einer kondensatorlosen Implementierung, d.h. in 2T0C-Gain-Zellen, erreicht werden kann. Dank des ultraniedrigen Aus-Stroms in IGZO-Transistoren wird eine lange Speicherzeit sogar dann erreicht, wenn nur der Gate-Stack des Lesetransistors als Speicherkondensator verwendet wird.

Das Weglassen des externen Kondensators hat einige bemerkenswerte Vorteile. Er senkt die Kosten und führt, da der Kondensator eine beträchtliche Fläche beansprucht, zu einer noch kleineren Grundfläche. Auf der IEDM 2021 präsentierte Imec eine IGZO-basierte 2T0C-DRAM-Zelle mit einer Verweildauer von mehr als 103 s, eine Folge des sehr niedrigen Ausschaltstroms der IGZO-Transistoren [4].

Kürzlich haben die Forscher von Imec die Verweildauer von IGZO-basierten 2T0C-Bauelementen sogar auf über 4,5 Stunden verbessern können und einen Aus-Strom weniger als 3 x 10-21A/µm erreicht – der niedrigste Wert, der jemals für 2T0C-Bauelemente berichtet wurde.

Der Schlüssel zu diesen Ergebnissen war die Verwendung einer anderen Technik für die Strukturierung des aktiven Moduls der 2T0C-Bauelemente. Die Forscher verwendeten das reaktive Ionenätzen (RIE) anstelle des Ionenstrahlätzens (IBE). Es hat sich gezeigt, dass RIE die durch IBE induzierte Metallneubildung eliminiert und somit extrinsische Leckagepfade unterdrückt und die Verweilzeit verlängert. Ein zusätzlicher Vorteil der RIE-Technik ist die Möglichkeit, Muster in sehr kleinen Dimensionen (unter 100 nm) zu erzeugen, was den Flächenverbrauch weiter reduziert. Die Ergebnisse wurden auf der VLSI Ende 2023 vorgestellt [5].

Beuelemente erreichen ausgezeichnete Spannungsstabilität

Dank der verbesserten Retention zeigten die Forscher außerdem eine ausgezeichnete Stabilität der Spannung des Speicherknotens, was auf ein günstiges analoges Verhalten für Anwendungen des maschinellen Lernens hindeutet. Sie haben erfolgreich die mehrstufige Programmierung auf einzelligen 2T0C-Bausteinen und den MAC-Betrieb in 2x2-Arrays nachgewiesen.

Unter dem Strich zeigen IGZO-basierte 2T1C- und 2T0C-Gain-Zellen hervorragende Eigenschaften für AiMC und können daher für die Inferenzphase von Anwendungen des maschinellen Lernens verwendet werden. Bei diesen Anwendungen übertreffen sie die herkömmliche SRAM-basierte Technologie in Bezug auf Energieeffizienz und Rechendichte – vor allem die 2T0C-Zellen zeichnen sich durch ihre Flächeneffizienz aus. Die Forschung hat den Weg für die Umsetzung dieser Technologie in der Industrie geebnet, indem sie gezeigt hat, dass sie in der Lage ist, mehrstufige MAC-Operationen durchzuführen. (me)

Literaturhinweise

[1] ‘Advanced memory, logic and 3D technologies for in-memory computing and machine learning,’ S. Cosemans, ISSCC 2019

[2] ‘Towards 10.000 TOPS/W DNN inference with analog in-memory computing – a circuit blueprint, device options and requirements,’ S. Cosemans et al., IEDM 2019

[3] ‘Demonstration of multilevel multiply accumulate operations for AiMC using engineered a-IGZO transistors-based 2T1C gain cell arrays,’ S. Subhechha et al., IMW 2023

[4] ‘Tailoring IGZO-TFT architecture for capacitorless DRAM, demonstrating >103 s retention, >1011 cycles endurance and Lg scalability down to 14nm,’ A. Belmonte et al., IEDM 2021

[5] ‘Lowest IOFF<3x10-21 A/µm in capacitorless DRAM achieved by reactive ion etch of IGZO-TFT,’ A. Belmonte et al., VLSI 2023

* Subhali Subhechha ist Senior Researcher für Speicherelemente bei imec

* Attilio Belmonte ist Programmmanager für aktive Speicher bei imec

* Gouri Sankar Kar ist Programmdirektor bei Imec für SCM-, DRAM- und MRAM-Technologien.

(ID:49865081)