Rechenleistung für KI ASICs gegen GPUs: Liegt die KI-Zukunft nicht in Nvidias Händen?

Von Susanne Braun 5 min Lesedauer

Anbieter zum Thema

Wird über große Sprachmodelle und ihre Trainings-Cluster oder über künstliche Intelligenz im Allgemeinen gesprochen, dann wird weniger oft hinterfragt, ob GPUs die richtige Wahl für die Technik hinter der KI darstellen - oder ob ASICs sie nicht langfristig übertrumpfen. Etched will das mit einem Transformer-ASIC ändern.

Etched hat den weltweit ersten Transformator-ASIC Sohu vorgestellt. Die für LLMs spezialisierte Technologie bietet eine schnellere Leistung als die Allrounder-GPUs, die weithin für KI genutzt werden.(Bild:  Etched)
Etched hat den weltweit ersten Transformator-ASIC Sohu vorgestellt. Die für LLMs spezialisierte Technologie bietet eine schnellere Leistung als die Allrounder-GPUs, die weithin für KI genutzt werden.
(Bild: Etched)

„Wenn ich mit ASICs arbeiten würde, die speziell für KI-Aufgaben entwickelt wurden, könnte ich möglicherweise eine schnellere Leistung und größere Effizienz erzielen“, erzählt Ihnen GPT-4, wenn Sie den KI-Chatbot danach fragen, ob er auf GPUs betrieben wird und ob es nicht sinnvoller wäre, würde das KI-Modell auf ASICs laufen. 

Wird künstliche Intelligenz erwähnt, dann wird sich oft darüber unterhalten, welches Large Language Model (LLM) denn am besten trainiert sei, am schnellsten ist oder auf welcher GPU-Hardware das Modell ausgeführt wird. Macht Nvidia die besten KI-Chips oder AMD oder vielleicht Intel?

Bildergalerie
Bildergalerie mit 6 Bildern

Weniger oft wird hinterfragt, ob die für viele KI-Chips genutzte Kombination aus GPU und CPU die tatsächlich sinnvollste Hardware-Architektur für künstliche Intelligenz darstellt - oder ob es nicht vielleicht eine bessere Technologie gäbe. Wie Sie schon aus der Antwort auf die eingangs gestellte Frage erfahren, gibt es Hardware, die sich für künstliche Intelligenz besser eignen könnte: ASIC. 

Application-Specific Integrated Circuits

Ein Transformer-ASIC ist ein spezialisierter Chip, der die Transformer-Architektur direkt in die Hardware integriert. Ein Transformer ist ein spezieller Architekturstil für neuronale Netze, der insbesondere in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet wird. Im Vergleich zu allgemeinen Prozessoren wie GPUs ermöglicht ein Transformer-ASIC eine effizientere und schnellere Ausführung von Modellen, da er speziell für die Anforderungen und Berechnungen optimiert ist. Diese Chips können somit große Modelle mit Milliarden von Parametern effizient unterstützen. 

Insofern ist es wenig verwunderlich, dass sich der noch relativ junge ASIC-Hersteller Etched mit dem hauseigenen Produkt Sohu brüstet, der weltweit erste Transformer-ASIC, der schneller als die aktuelle Nvidia-Generation Blackwell sein soll - was bei einem spezialisierten Chip kein Wunder ist, wie wir weiter unten ausführen.

Die Technologie von Etched integriert die Transformer-Architektur direkt in den Chip, wodurch KI-Modelle erheblich schneller und kostengünstiger als mit GPUs betrieben werden können. „Wir haben die letzten zwei Jahre mit der Entwicklung von Sohu verbracht, dem weltweit ersten spezialisierten Chip (ASIC) für Transformer (das ‚T‘ in ChatGPT)“, so die Verantwortlichen von Etched.

„Mit einem Durchsatz von über 500.000 Token pro Sekunde in Llama 70B ermöglicht Sohu die Entwicklung von Produkten, die auf GPUs unmöglich sind. Sohu ist schneller und billiger als selbst Nvidias Blackwell-GPUs der nächsten Generation. Heute ist jedes moderne LLM ein Transformer: ChatGPT, Sora, Gemini, Stable Diffusion 3 und andere. Wenn Transformer durch SSMs (Sparse Supervised Learning Models), RWKV (Receptive Field Weighted Kernel Virtualization) oder eine andere neue Architektur ersetzt werden, sind unsere Chips nutzlos“, erklären die Leute hinter Sohu weiter. Die Entwicklung von Sohu ist ein Glücksspiel in die ungewisse Zukunft, ob KI weiterhin auf der Transformer-Architektur basiert.

Das Wettrennen um die größte Rechenkapazität schlau gewinnen

Wenn die Entwickler und Entscheider von Etched mit ihrer Annahme richtig liegen, dass KI weiterhin auf der Architektur basiert, dann könnte Sohu, ihren Angaben zufolge, die Welt verändern.

Innerhalb von fünf Jahren sind KI-Modelle so schlau geworden, dass sie standardisierte Tests zuverlässiger als Menschen erledigen können, was wiederum damit zu tun hat, dass für die KI-Modelle mehr und mehr Rechenleistung zur Verfügung gestellt werden konnte. Skalierungen von Rechenzentren sind allerdings nicht unendlich möglich, wie wir bereits in diesem Beitrag angerissen haben.

Ähnlich wird das bei Etched gesehen: „Die Skalierung des nächsten 1.000-fachen wird kostenintensiv sein. Die Rechenzentren der nächsten Generation werden mehr kosten als das BIP einer kleinen Nation. Bei dem derzeitigen Tempo können unsere Hardware, unsere Stromnetze und unsere Geldbeutel nicht mithalten.“

Zweieinhalb Jahre wurden bis zur ersten Auslieferung von B200 von Nvidia seit der Bereitstellung H100 benötigt und der Performance-Gewinn liegt lediglich bei 15 Prozent. Deswegen glaubt Etched, mit der Spezialisierung auf Transformer-Chips die richtige Wahl getroffen zu haben, denn alle großen KI-Modelle wie OpenAIs GPT-Familie, Googles PaLM, Metas LLaMa und Teslas FSD sind Transformer.

„Wenn Modelle mehr als 1 Mrd. US-Dollar für das Training und mehr als 10 Mrd. US-Dollar für die Inferenz kosten, sind spezialisierte Chips unvermeidlich. In dieser Größenordnung würde eine Verbesserung von 1 Prozent ein Projekt für einen speziellen Chip im Wert von 50 bis 100 Mio. US-Dollar rechtfertigen“, argumentiert Etched.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Ein 8xSohu-Server ersetzt 160 H100-GPUs

In ihrer Sohu-Ankündigung kleckern die Erfinder des Chips nicht, sie klotzen. „Da Sohu nur einen Algorithmus ausführen kann, kann der größte Teil der Kontrollflusslogik entfernt werden, sodass viel mehr Rechenblöcke zur Verfügung stehen. Infolgedessen erreicht Sohu eine FLOPS-Auslastung von über 90 % (im Vergleich zu ~30 % bei einer GPU mit TRT-LLM)“, wird erklärt. „Der Nvidia H200 verfügt über 989 TFLOPS an FP16/BF16-Rechenleistung ohne Sparsity. Das ist der neueste Stand der Technik (sogar mehr als Googles neuer Trillium-Chip), und der GB200, der 2025 auf den Markt kommt, hat nur 25 % mehr Rechenleistung (1.250 TFLOPS pro Die).“

GPUs sind mit dem Gedanken an Flexibilität entworfen worden. GPUs sind programmierbar und können deswegen für eine Vielzahl von Aufgaben verwendet werden, während ASICs speziell für eine bestimmte Anwendung entwickelt sind und weniger flexibel sind - im Fall vom Sohu-ASIC also rein für Transformer-KI-Modelle. Entsprechend unterstützt die Hardware heutige Modelle von OpenAI, Google, Meta, Microsoft und mehr, und angepasste Versionen von ihnen, die künftig kommen.

Doch die Entwicklung eines unflexibleren ASICs ist teuer und zeitaufwendig. GPUs sind sofort verfügbar und bieten eine schnelle Implementierung, verfügen über eine ausgereifte Software- und Hardware-Infrastruktur, einschließlich weitverbreiteter Programmiersprachen und Bibliotheken. Auch im Hinblick auf Skalierbarkeit punkten bislang GPUs. Wenig verwunderlich ist es also, dass Nvidia derzeit einer der gefragtesten Hersteller von KI-Chips ist. Die Frage stellt sich nur: Wie lange noch?

Denn die Erfinder von Sohu haben nicht Unrecht, wenn sie die Effektivität und insbesondere diese Skalierbarkeit für künftige, noch leistungsstärkere Modelle hinterfragen - weitere Informationen dazu erfahren Sie aus dem Bericht von Etched. Nicht ohne Grund greifen auch Bitcoin-Miner inzwischen zu ASICs oder FPGAs(sb)

Artikelfiles und Artikellinks

(ID:50093583)