2,6 Billionen (!) Transistoren, 850.000 Rechenkerne, 40 GByte On-Chip-Memory, 20 kW Leistungsaufnahme: Die Wafer Scale Engine 2 von Cerebras ist in jeder Hinsicht extrem. Dabei ist der Name Programm: Der 7-nm-Chip belegt nahezu einen kompletten 300-mm-Wafer. Mittlerweile ist der Chip am LRZ in Garching bei München im Einsatz.
Es ist angerichtet: Die Wafer Scale Engine 2 ist groß wie ein Pizzateller – und um Größenordnungen teurer.
(Bild: ELIZAVETA ELESINA)
Schon der erste Chip des KI-Start-ups Cerebras, die Wafer Scale Engine (WSE), war ein Gigant. Die WSE-2 sprengt jedoch alle Grenzen: 2,6 Billionen (!) Transistoren verteilen sich auf 850.000 Rechenkerne, 40 GByte On-Chip-SRAM und weitere Schaltungsblöcke. Dabei ist der Prozessor nicht etwa aus mehreren einzelnen Chiplets zusammengefügt, sondern belegt mit seinen 46.255 mm2 einen kompletten Wafer.
WSE-2 ist in 84 (7 x 12) Rechtecke aufgeteilt, die nebeneinander angeordnet ein Quadrat mit 21 Zentimeter Kantenlänge ergeben. Da der Yield bei der Chipfertigung nie 100 Prozent beträgt, weisen Wafer immer Defekte auf. Ein gewisser Ausschuss ist also normal. Cerebras hat das einkalkuliert und lässt Ersatzkerne mitproduzieren. Sind Kerne unbrauchbar, lassen sich stattdessen andere nutzen. Der Chip ist für den modernen 7-nm-CMOS-Prozess der taiwanesischen Chipschmiede TSMC ausgelegt und soll ab Herbst 2021 erhältlich sein.
Zum Vergleich: Für den verbreiteten KI-Prozessor Nvidia A100 – der als derzeit größte Grafikrecheneinheit (GPU) gilt und wie die WSE-2 auf KI-Berechnungen ausgerichtet ist – integriert TSMC ebenfalls im 7-nm-Verfahren 54,2 Mrd. Transistoren auf einer Fläche von immerhin 826 mm2. Er bringt es immerhin auf 7.344 Kerne und 40 MByte On-Chip-Speicher.
Gegenüber dem zumindest flächenmäßig gleichgroßen Vorgänger WSE konnte Cerebras nach eigenen Angaben die Speicherbandbreite mehr als verdoppeln – von 9 auf jetzt 20 Petabytes pro Sekunde (PBytes/s). Gleichzeitig stieg demnach die Bandbreite des On-Chip-Netzwerks (Fabric) von 100 auf 220 PBit/s. Der Nvidia A100 wartet demgegenüber mit 155 GByte/s beziehungsweise 600 GByte/s auf – was für sich genommen bereits enorme Leistungsdaten sind, gegenüber den Übertragungswerten der WSE-2 aber verblassen.
Flaschenhals Speicherschnittstelle umgangen
Das Haupteinsatzgebiet des Riesenrechenchips ist – wenig überraschend – das Trainieren umfangreicher Neuronaler Netze (NN). Nach Ansicht von Cerebras hat sich Deep Learning „zu einer der wichtigsten Rechenaufgaben unserer Generation entwickelt“. Deep Learning ist aber eben äußerst rechenintensiv. Zwischen 2015 und 2020 sei der Rechenaufwand für das Trainieren der größten Modelle um etwa das 300.000-fache gestiegen, sagt Cerebras. Im Schnitt verdopple sich der Rechenbedarf für KI etwa alle 3,5 Monate.
Bei herkömmlichen Architekturen (etwa Von-Neumann) ist die Speicherschnittstelle und das Speichermanagement eine Engstelle, die besonders datenintensive Berechnungen stark ausbremst: Daten werden blockweise aus dem externen Speicher (in der Regel DRAM) in den Prozessor geladen, verarbeitet und die Ergebnisse wieder zurückgeschrieben. Das kostet Zeit und Energie.
Cerebras lässt zusammen, was zusammengehört
Die Idee hinter der WSE ist es daher, alle zur Berechnung benötigten Daten zeitgleich in unmittelbarer Nähe zu den KI-Kernen zu halten – im Falle von WSE-2 sind das KI-optimierte „Sparse Linear Algebra Compute“-(SLAC-)Kerne. Für große NN sind viele solcher Cores und viele Speicherzellen nötig. So viele, dass die dafür nötigen Transistoren nahezu einen ganzen 300-mm-Wafer füllen.
Prozessoren werden typischerweise hergestellt, indem viele Kopien desselben Chips auf einen Wafer belichtet werden. Die einzelnen Chips werden getrennt, verpackt und als einzelne Prozessoren verkauft. „Hersteller verbringen viel Zeit, Geld und Mühe, um diese Chips – über InfiniBand und andere Interconnect-Technologien – wieder zu Clustern zusammenzuschalten“, schreibt Cerebras: „Das ist, als ob man ein Produkt absichtlich kaputt macht, um es dann wieder zusammenzusetzen. Bei Cerebras lassen wir es zusammen. Wir schneiden das größtmögliche Quadrat aus einem einzigen Silizium-Wafer, und das ist unser Prozessor – der WSE-2.“
Sehr hohe Stromdichte erfordert Speziallösung zur Chipversorgung
Doch mit dem Wafer allein ist es nicht getan. Ein Problem ist die Stromversorgung des Riesenchips. Im sogenannten Engine Block werden die über die Power-Pins gelieferten Tausenden von Watts auf die von der WSE-2 verwendeten Sub-Volt-Pegel transformiert. Ergo muss der Chip beziehungsweise das gesamte Versorgungssystem mit sehr hohen Stromstärken zurecht kommen.
Da die resultierende Stromdichte so hoch ist, würde die übliche Methode der Leistungsverteilung über die Seiten der Platine zu einer zu hohen Verlustleistung in der Mitte des Chips führen. Die spezielle Gehäuselösung des Engine Blocks liefert stattdessen Strom und Daten über ein Verteilernetz direkt senkrecht auf die Hauptplatine. Eine neuartige, flexible Schicht zwischen dem Silizium-Wafer und der Hauptplatine hält die elektrische Verbindung zum Chip aufrecht. Das ist nötig, da sich die Bestandteile bei Erwärmung und Abkühlung unterschiedlich stark ausdehnen und zusammenziehen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Enorme Leistungsaufnahme: Ohne Wasserkühlung geht nichts
An der deutlichen Leistungssteigerung von WSE-2 gegenüber seinem Vorgänger hat der Wechsel vom 16-nm- auf den 7-nm-Prozess einen großen Anteil. Laut TSMC ermöglicht dieser Schritt etwa die Verdoppelung der Transistordichte, einen Zuwachs des Rechentempos um rund 40 Prozent sowie – bei einem solchen Riesenchip besonders wichtig – eine Verringerung der Leistungsaufnahme um etwa 60 Prozent. Nach Angaben von Cerebras-CEO Andrew Feldman, der das Unternehmen 2015 gegründet hat, hat sein Team zusätzlich Optimierungen an der Mikroarchitektur der KI-Kerne vorgenommen.
Cerebras integriert seine WSE-2 in ein flüssigkeitsgekühltes (Closed-Loop) Computersystem mit der Bezeichnung CS-2. Über seine zwölf 100-GBit-Ethernet-Anschlüsse erreicht das System eine I/O-Bandbreite von 1,2 TBit/s. Für den Hausgebrauch ist es aber nicht geeignet: Laut Cerebras hat das System eine Leistungsaufnahme von bis zu 23 kW, sein Gehäuse füllt ein Drittel eines Standard-Racks für Rechenzentren.
Neben der Hardware- haben die Kalifornier auch eine umfassende, auf den einzigen Anwendungszweck Maschinelles Lernen ausgerichtete Software-Plattform entwickelt. In seinem Whitepaper verspricht Cerebras, dass KI-Forscher damit die Rechenleistung von CS-2 nutzen können, ohne ihre bestehenden Workflows zu ändern.
Die Software besteht laut Hersteller aus vier primären Elementen: dem Cerebras Graph Compiler (CGC), einer flexiblen Bibliothek von Hochleistungskerneln und einer API für die Kernel-Entwicklung, Entwicklungswerkzeugen für Debugging, Introspektion und Profiling sowie der Clustering-Software.
Quantencomputer derzeit keine Alternative
Inzwischen hat Cerebras mehrere Kunden gewonnen, darunter GlaxoSmithKline, Edinburgh Parallel Computing Centre, Pittsburgh Supercomputer Center, Argonne National Laboratory und Lawrence Livermore National Laboratory. „Wir haben eine mehrjährige Partnerschaft mit diesen National Labs des US-Energieministeriums vereinbart, um Deep Learning für die Grundlagen- und angewandte Wissenschaft sowie die Medizin voranzutreiben“, verkündet CEO Andrew Feldman stolz.
Der Erfolg zeigt sich auch am Wachstum der Cerebras-Mannschaft: Mittlerweile arbeiten über 300 Ingenieure in den Niederlassungen in San Diego, Toronto, Tokio und natürlich am Stammsitz in Sunnyvale im Silicon Valley. Damit hat sich die Belegschaft seit 2019 mehr als verdoppelt.
Bis Quantencomputer mit mehreren tausend Qubits praktikabel nutzbar werden, dürften noch einige Jahre ins Land ziehen. Derzeit ist wohl kein anderes System in Sicht, das dem WSE-2/CS-2-Gespann bei ähnlicher Energieeffizient das Wasser reichen kann.
Zusammen mit HPE Superdome Flex Servern bildet das System mittlerweile eine wegweisende Computerarchitektur für die Verarbeitung größter Datenmengen mit KI- und Machine Learning-Methoden. Seit Ende Juli – rechtzeitig zum 60-jährigen Jubiläum des LRZ – ist der Superrechner in Betrieb.
Das LRZ will damit Innovationen und wissenschaftliche Entdeckungen in Deutschland beschleunigen. Wie Professor Kranzlmüller als Direktor des LRZ erläutert, sei zu beobachten, dass sich der Bedarf an KI-Rechnern bei den LRZ-Nutzern alle drei bis vier Monate verdoppele. „Durch die hohe Integration von Prozessoren, Speicher und On-Board-Netzwerken auf einem einzigen Chip ermöglicht Cerebras eine hohe Leistung und Geschwindigkeit. Das verspricht deutlich mehr Effizienz in der Datenverarbeitung und damit einen schnelleren Durchbruch wissenschaftlicher Erkenntnisse.“