Bis zu 256 exaFLOPs über 2048 Knoten WSE-3: KI-Riesenchip mit 4 Billionen Transistoren

Von Michael Eckstein 4 min Lesedauer

Anbieter zum Thema

Moderne 5-nm-Fertigung macht es möglich: Auf dem neuen Riesenchip WSE-3 von Cerebras vereinen sich 4 Billionen Transistoren zu 900.000 KI-Rechenkernen und 44 GByte Speicher. Damit erreicht der tellergroße Prozessor eine Rechenleistung von 125 Petaflops – ausreichend für das Trainieren von KI-Modellen mit bis zu 24 Billionen Parametern.

Der neue WSE-3-Chip übertrifft seinen Vorgänger in der Rechenleistung für das Trainieren generativer KI-Modelle deutlich.(Bild:  Cerebras)
Der neue WSE-3-Chip übertrifft seinen Vorgänger in der Rechenleistung für das Trainieren generativer KI-Modelle deutlich.
(Bild: Cerebras)

Bereits 2021 hatte Cerebras mit dem Vorgängerchip WSE-2 (Wafer Scale Engine) den Weltrekord für monolithisch integrierte Chips aufgestellt: Der Riesenprozessor vereint 2,6 Billionen Transistoren zu 850.000 Rechenkernen und greift auf 40 GByte Onboard-Speicher zu. Die neue WSE-3 legt die Latte noch ein gutes Stück höher: Auf etwa der gleichen Fläche drängen sich nun 4 Billionen Transtoren und bilden noch zusätzliche 50.000 KI-optimierte Kerne und 4 GByte zusätzlichen Onboard-Speicher.

Möglich ist dies, weil Cerebras seinen Pizza-Prozessor mittlerweile statt in 7-nm- in 5-nm-Prozesstechnologie bei TSMC fertigen lässt. Das wirkt sich auch positiv auf die Energieeffizienz aus: Bei gleicher Leistungsaufnahme – also rund 20 kW – liefert WSE-3 laut Cerebras die doppelte Leistung des bisherigen Rekordhalters WSE-2, nämlich 125 Petaflops. Spätestens damit ist klar: WSE-3 ist kein Kandidat für den heimischen Gaming-PC. Vielmehr kommt der Prozessor in dem eigens entwickelten Supercomputer Cerebras CS-3 zum Einsatz, wo er nach Angaben von Cerebras „die größten KI-Modelle der Branche“ mit bis zu 24 Billionen Parametern trainiert.

Cluster aus bis zu 2048 CS-3-Systemen

Jede CS-3 ist in der Lage, bis zu 1,2 Petabyte externen Speicher zu adressieren. Das System ist dafür ausgelegt, generative KI-Modelle zu trainieren, die 10-mal größer sind als GPT-4 und Gemini. Laut Cerebras können 24 Billionen Parametermodelle in einem einzigen logischen Speicherbereich ohne Partitionierung oder Refaktorierung gespeichert werden, „was den Trainingsworkflow drastisch vereinfacht und die Produktivität der Entwickler beschleunigt“. Das Training eines Modells mit einer Billion Parametern auf dem CS-3 sei damit so einfach wie das Training eines Modells mit einer Milliarde Parametern auf GPUs. Damit nicht genug: Bis zu 2048 CS-3-Systeme lassen sich zu einem Cluster zusammenschalten.

Das CS-3 ist nach Angaben des Herstellers sowohl für Unternehmens- als auch für Hyperscale-Anforderungen ausgelegt. Mit vier kompakten Systemkonfigurationen können 70B-Modelle an einem Tag feinabgestimmt werden, während bei voller Skalierung mit 2048 Systemen Llama 70B an einem einzigen Tag von Grund auf trainiert werden kann – eine noch nie dagewesene Leistung für generative KI.

Native Unterstützung für PyTorch 2.0

Das neueste Cerebras Software-Framework bietet native Unterstützung für PyTorch 2.0 und die neuesten KI-Modelle und -Techniken wie multimodale Modelle, Vision-Transformer, Expertenmischung und Diffusion. Cerebras ist nach wie vor die einzige Plattform, die native Hardware-Beschleunigung für dynamische und unstrukturierte Sparsity bietet und damit das Training um das bis zu 8-Fache beschleunigt. Sparsity bezeichnet den Prozess, die Anzahl der Parameter in Neuronalen Netzen zu reduzieren, ohne Einbußen bei der Genauigkeit einzugehen.

„Als wir uns vor acht Jahren auf diese Reise begaben, sagte jeder, dass Wafer-Scale-Prozessoren ein Wunschtraum seien. Wir könnten nicht stolzer sein, die dritte Generation unseres bahnbrechenden KI-Chips vorzustellen“, sagt Andrew Feldman, CEO und Mitbegründer von Cerebras. WSE-3 sei der schnellste KI-Chip der Welt, der speziell für die neuesten KI-Arbeiten entwickelt wurde.

Standardimplementierung von GPT-3 mit nur 565 Codezeilen

Laut Feldman liefert CS-3 mehr Rechenleistung auf weniger Platz und mit weniger Energie als jedes andere System. Während sich der Stromverbrauch von GPUs von Generation zu Generation verdoppelt, verdoppele der CS-3 die Leistung und bleibe dabei im gleichen Leistungsbereich. Nach Angaben von Cerebras ist der CS-3 sehr benutzerfreundlich, da er 97 Prozent weniger Code als GPUs für große Sprachmodelle (Large Language Models, LLMs) benötige und Modelle mit 1B bis 24T Parametern im rein datenparallelen Modus trainieren können. Demnach kommt eine Standardimplementierung eines Modells der Größe GPT-3 auf Cerebras mit nur 565 Codezeilen aus – „ein Branchenrekord“.

Nach eigenen Angaben hat Cerebras bereits einen beträchtlichen Auftragsbestand für CS-3 in Unternehmen, Behörden und internationalen Clouds. „Als langjähriger Partner von Cerebras sind wir sehr daran interessiert zu sehen, was mit der Weiterentwicklung der Wafer-Scale-Technik möglich ist“, sagt Rick Stevens, Associate Laboratory Director for Computing, Environment and Life Sciences des Argonne National Laboratory. Die Kühnheit von Cerebras ebne weiterhin den Weg für die Zukunft der KI.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Neuer KI-Superrechner im Bau

„Im Rahmen unserer mehrjährigen Zusammenarbeit mit Cerebras zur Entwicklung von KI-Modellen, die die Ergebnisse und Diagnosen von Patienten verbessern, freuen wir uns über die Fortschritte bei den technologischen Fähigkeiten“, sagt Dr. Matthew Callstrom, M.D., medizinischer Direktor für Strategie und Lehrstuhl für Radiologie der Mayo Clinic.

Der CS-3 wird auch eine wichtige Rolle in der Zusammenarbeit von Cerebras und G42 spielen. Diese Partnerschaft hat bereits 8 exaFLOPs an KI-Supercomputerleistung über Condor Galaxy 1 (CG-1) und Condor Galaxy 2 (CG-2) geliefert. Sowohl CG-1 als auch CG-2, die in Kalifornien eingesetzt werden, gehören zu den größten KI-Supercomputern der Welt.

Super-KI-Rechner Condor Galaxy 3 mit 64 CS-3 im Bau

Mittlerweile ist Condor Galaxy 3 im Bau. Der Supercomputer wird mit 64 CS-3-Systemen ausgestattet sein, die 8 exaFLOPs an KI-Rechenleistung erbringen. Condor Galaxy 3 ist die dritte Installation im Condor Galaxy Netzwerk. Condor Galaxy hat einige der führenden Open-Source-Modelle der Branche trainiert, darunter Jais-30B, Med42, Crystal-Coder-7B und BTLM-3B-8K.

„Unsere strategische Partnerschaft mit Cerebras hat die Innovation bei G42 maßgeblich vorangetrieben und wird dazu beitragen, die KI-Revolution auf globaler Ebene zu beschleunigen“, ist Kiril Evtimov, Group CTO von G42, überzeugt. (me)

(ID:49965672)