Wird über große Sprachmodelle und ihre Trainings-Cluster oder über künstliche Intelligenz im Allgemeinen gesprochen, dann wird weniger oft hinterfragt, ob GPUs die richtige Wahl für die Technik hinter der KI darstellen - oder ob ASICs sie nicht langfristig übertrumpfen. Etched will das mit einem Transformer-ASIC ändern.
Etched hat den weltweit ersten Transformator-ASIC Sohu vorgestellt. Die für LLMs spezialisierte Technologie bietet eine schnellere Leistung als die Allrounder-GPUs, die weithin für KI genutzt werden.
(Bild: Etched)
„Wenn ich mit ASICs arbeiten würde, die speziell für KI-Aufgaben entwickelt wurden, könnte ich möglicherweise eine schnellere Leistung und größere Effizienz erzielen“, erzählt Ihnen GPT-4, wenn Sie den KI-Chatbot danach fragen, ob er auf GPUs betrieben wird und ob es nicht sinnvoller wäre, würde das KI-Modell auf ASICs laufen.
Wird künstliche Intelligenz erwähnt, dann wird sich oft darüber unterhalten, welches Large Language Model (LLM) denn am besten trainiert sei, am schnellsten ist oder auf welcher GPU-Hardware das Modell ausgeführt wird. Macht Nvidia die besten KI-Chips oder AMD oder vielleicht Intel?
Weniger oft wird hinterfragt, ob die für viele KI-Chips genutzte Kombination aus GPU und CPU die tatsächlich sinnvollste Hardware-Architektur für künstliche Intelligenz darstellt - oder ob es nicht vielleicht eine bessere Technologie gäbe. Wie Sie schon aus der Antwort auf die eingangs gestellte Frage erfahren, gibt es Hardware, die sich für künstliche Intelligenz besser eignen könnte: ASIC.
Application-Specific Integrated Circuits
Ein Transformer-ASIC ist ein spezialisierter Chip, der die Transformer-Architektur direkt in die Hardware integriert. Ein Transformer ist ein spezieller Architekturstil für neuronale Netze, der insbesondere in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet wird. Im Vergleich zu allgemeinen Prozessoren wie GPUs ermöglicht ein Transformer-ASIC eine effizientere und schnellere Ausführung von Modellen, da er speziell für die Anforderungen und Berechnungen optimiert ist. Diese Chips können somit große Modelle mit Milliarden von Parametern effizient unterstützen.
Insofern ist es wenig verwunderlich, dass sich der noch relativ junge ASIC-Hersteller Etched mit dem hauseigenen Produkt Sohu brüstet, der weltweit erste Transformer-ASIC, der schneller als die aktuelle Nvidia-Generation Blackwell sein soll - was bei einem spezialisierten Chip kein Wunder ist, wie wir weiter unten ausführen.
Die Technologie von Etched integriert die Transformer-Architektur direkt in den Chip, wodurch KI-Modelle erheblich schneller und kostengünstiger als mit GPUs betrieben werden können. „Wir haben die letzten zwei Jahre mit der Entwicklung von Sohu verbracht, dem weltweit ersten spezialisierten Chip (ASIC) für Transformer (das ‚T‘ in ChatGPT)“, so die Verantwortlichen von Etched.
„Mit einem Durchsatz von über 500.000 Token pro Sekunde in Llama 70B ermöglicht Sohu die Entwicklung von Produkten, die auf GPUs unmöglich sind. Sohu ist schneller und billiger als selbst Nvidias Blackwell-GPUs der nächsten Generation. Heute ist jedes moderne LLM ein Transformer: ChatGPT, Sora, Gemini, Stable Diffusion 3 und andere. Wenn Transformer durch SSMs (Sparse Supervised Learning Models), RWKV (Receptive Field Weighted Kernel Virtualization) oder eine andere neue Architektur ersetzt werden, sind unsere Chips nutzlos“, erklären die Leute hinter Sohu weiter. Die Entwicklung von Sohu ist ein Glücksspiel in die ungewisse Zukunft, ob KI weiterhin auf der Transformer-Architektur basiert.
Das Wettrennen um die größte Rechenkapazität schlau gewinnen
Wenn die Entwickler und Entscheider von Etched mit ihrer Annahme richtig liegen, dass KI weiterhin auf der Architektur basiert, dann könnte Sohu, ihren Angaben zufolge, die Welt verändern.
Innerhalb von fünf Jahren sind KI-Modelle so schlau geworden, dass sie standardisierte Tests zuverlässiger als Menschen erledigen können, was wiederum damit zu tun hat, dass für die KI-Modelle mehr und mehr Rechenleistung zur Verfügung gestellt werden konnte. Skalierungen von Rechenzentren sind allerdings nicht unendlich möglich, wie wir bereits in diesem Beitrag angerissen haben.
Ähnlich wird das bei Etched gesehen: „Die Skalierung des nächsten 1.000-fachen wird kostenintensiv sein. Die Rechenzentren der nächsten Generation werden mehr kosten als das BIP einer kleinen Nation. Bei dem derzeitigen Tempo können unsere Hardware, unsere Stromnetze und unsere Geldbeutel nicht mithalten.“
Zweieinhalb Jahre wurden bis zur ersten Auslieferung von B200 von Nvidia seit der Bereitstellung H100 benötigt und der Performance-Gewinn liegt lediglich bei 15 Prozent. Deswegen glaubt Etched, mit der Spezialisierung auf Transformer-Chips die richtige Wahl getroffen zu haben, denn alle großen KI-Modelle wie OpenAIs GPT-Familie, Googles PaLM, Metas LLaMa und Teslas FSD sind Transformer.
„Wenn Modelle mehr als 1 Mrd. US-Dollar für das Training und mehr als 10 Mrd. US-Dollar für die Inferenz kosten, sind spezialisierte Chips unvermeidlich. In dieser Größenordnung würde eine Verbesserung von 1 Prozent ein Projekt für einen speziellen Chip im Wert von 50 bis 100 Mio. US-Dollar rechtfertigen“, argumentiert Etched.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Ein 8xSohu-Server ersetzt 160 H100-GPUs
In ihrer Sohu-Ankündigung kleckern die Erfinder des Chips nicht, sie klotzen. „Da Sohu nur einen Algorithmus ausführen kann, kann der größte Teil der Kontrollflusslogik entfernt werden, sodass viel mehr Rechenblöcke zur Verfügung stehen. Infolgedessen erreicht Sohu eine FLOPS-Auslastung von über 90 % (im Vergleich zu ~30 % bei einer GPU mit TRT-LLM)“, wird erklärt. „Der Nvidia H200 verfügt über 989 TFLOPS an FP16/BF16-Rechenleistung ohne Sparsity. Das ist der neueste Stand der Technik (sogar mehr als Googles neuer Trillium-Chip), und der GB200, der 2025 auf den Markt kommt, hat nur 25 % mehr Rechenleistung (1.250 TFLOPS pro Die).“
GPUs sind mit dem Gedanken an Flexibilität entworfen worden. GPUs sind programmierbar und können deswegen für eine Vielzahl von Aufgaben verwendet werden, während ASICs speziell für eine bestimmte Anwendung entwickelt sind und weniger flexibel sind - im Fall vom Sohu-ASIC also rein für Transformer-KI-Modelle. Entsprechend unterstützt die Hardware heutige Modelle von OpenAI, Google, Meta, Microsoft und mehr, und angepasste Versionen von ihnen, die künftig kommen.
Doch die Entwicklung eines unflexibleren ASICs ist teuer und zeitaufwendig. GPUs sind sofort verfügbar und bieten eine schnelle Implementierung, verfügen über eine ausgereifte Software- und Hardware-Infrastruktur, einschließlich weitverbreiteter Programmiersprachen und Bibliotheken. Auch im Hinblick auf Skalierbarkeit punkten bislang GPUs. Wenig verwunderlich ist es also, dass Nvidia derzeit einer der gefragtesten Hersteller von KI-Chips ist. Die Frage stellt sich nur: Wie lange noch?
Denn die Erfinder von Sohu haben nicht Unrecht, wenn sie die Effektivität und insbesondere diese Skalierbarkeit für künftige, noch leistungsstärkere Modelle hinterfragen - weitere Informationen dazu erfahren Sie aus dem Bericht von Etched. Nicht ohne Grund greifen auch Bitcoin-Miner inzwischen zu ASICs oder FPGAs. (sb)