In einem Interview mit The Next Platform räumt AMDs Forrest Norrod, General Manager des Datacenter-Geschäfts, ein, dass es Anfragen gibt, eine absurd hoch erscheinende Menge an GPUs in einen KI-Cluster zu verbauen. Neben den Anschaffungskosten dürften unter aktuellen Gesichtspunkten auch der Stromverbrauch und die Ausfallraten sehr hoch ausfallen.
AMDs größter Wachstumsbereich ist das Geschäft mit Rechenzentren für KI. Offenbar bekommt der Hersteller für KI-Chips durchaus Anfragen für absurd groß erscheinende KI-Trainingscluster.
(Bild: AMD)
Künstliche Intelligenz wird beschworen, die vierte industrielle Revolution einzuleiten, und es ist nicht von der Hand zu weisen, dass die Technologie in der Lage ist, unter anderem Effizienzen zu steigern. Das ist insbesondere der Geschwindigkeit zuzurechnen, mit der Daten gesammelt und analysiert werden können, um damit einen wahrscheinlichen Blick in die Zukunft zu werfen.
Ermöglicht wird künstliche Intelligenz nicht nur mit enormer Rechenleistung, sondern vor allem mit dem Training enormer Datenmengen, damit eine KI überhaupt erst so gut wird, wie sie, für unser Verständnis, sein kann. Insgesamt sind große Sprachmodelle wie GPT-4 oder BERT leistungsstarke Werkzeuge, die das Potenzial haben, viele Aspekte der Verarbeitung natürlicher Sprache zu revolutionieren. Jedoch bringen sie auch Herausforderungen mit sich, die sorgfältig adressiert werden müssen.
Das Training und der Betrieb großer Sprachmodelle erfordern erhebliche Rechenressourcen und ihre Leistung hängt stark von der Qualität und Diversität der Trainingsdaten ab. Große Sprachmodelle können Vorurteile und unangemessene Inhalte aus den Trainingsdaten übernehmen und reproduzieren.
Konzentriert man sich auf den Aspekt der Rechenleistung, dann wäre man möglicherweise versucht zu glauben: Je mehr GPUs in einem KI-Cluster parallel Berechnungen ausführen können, desto schneller und effektiver lernt ein LLM, nicht wahr? Ganz so einfach ist es möglicherweise aber nicht. Die KI-Chips kosten an sich ein Heidengeld; wir sprechen hier von fünfstelligen Summen pro Chip. Je mehr Hardware mit Strom versorgt werden muss, desto höher ist entsprechend der Stromverbrauch und zudem wird eine robuste Stromversorgung benötigt. Und dann steigt mit der Menge der Einzelteile eines Systems auch noch die Ausfallwahrscheinlichkeit der Komponenten. Die Skalierung von KI-Clustern ist nicht ganz so trivial, wie es erscheinen mag; mehr ist nicht automatisch besser.
Mehr als eine Million GPUs in einem KI-Trainingscluster?
Insofern erscheinen Anfragen, die bei KI-Chip-Hersteller AMD auflaufen, mitunter absurd. Im Gespräch mit der Plattform The Next Platform räumt AMDs Forrest Norrod ein, dass es ernst gemeinte Anfragen an das Unternehmen gäbe, in einem KI-Cluster, also in einer Maschine, GPU-Mengen in der Größenordnung von einer Million zu verbauen.
Timothy Prickett Morgan (nachfolgend TPM) von The Next Platform spricht Norrod im Gespräch darauf an, dass es offenbar Visionen, wenn nicht gar Pläne für KI-Trainingscluster gibt, die „verblüffend“ sind. Die Unterhaltung, die Sie bei The Next Platform im Original lesen können, spielte sich in etwa wie folgt ab:
Norrod: […] Aber einige der in Erwägung gezogenen KI-Trainingscluster sind wirklich verblüffend. …
TPM: Welches ist der größte KI-Trainingscluster, den jemand ernsthaft ins Auge gefasst hat – Sie müssen keine Namen nennen. Ist jemand zu Ihnen gekommen und hat gesagt, mit MI500 benötige ich 1,2 Millionen GPUs oder so?
Forrest Norrod: Liegt es in diesem Bereich? Ja.
TPM: Sie können nicht einfach sagen: „Es liegt in diesem Bereich“. Was ist die größte tatsächliche Zahl?
Forrest Norrod: Ich meine es todernst, sie liegt in diesem Bereich.
TPM: Für eine Maschine.
Forrest Norrod: Ja, ich spreche von einer Maschine.
TPM: Das verblüfft einen schon ein wenig, wissen Sie?
Forrest Norrod: Das verstehe ich. Das Ausmaß dessen, was hier in Erwägung gezogen wird, ist überwältigend. Wird das alles Wirklichkeit werden? Ich weiß es nicht. Aber es gibt öffentliche Berichte von sehr ernsthaften Leuten, die darüber nachdenken, Dutzende Milliarden Dollar oder sogar hundert Milliarden Dollar für Trainingscluster auszugeben.
Supercomputer Frontier verfügt über 30-mal weniger GPUs
Um das in eine Relation zu setzen, ziehen die Autoren von Tom's Hardware den aktuell leistungsfähigsten Supercomputer der Welt heran, Frontier von Hewlett Packard Enterprise und Cray. Der verfügt nämlich „nur“ über mehr als 37.000 AMD-MI250X-GPUs, die eine Spitzenleistung von 1,1 ExaFLOPS leisten können.
Wolle man wirklich ein System mit mehr als einer Million GPUs bauen, dann gilt es abseits der Kosten und des wirklich massiven Stromverbrauchs noch weitere Herausforderungen zu meistern. KI-Arbeitslasten sind besonders empfindlich gegenüber Latenz, insbesondere der sogenannten „Tail Latency“ und anderen Ausreißern dieser Art, bei denen bestimmte Datenübertragungen viel länger dauern und die Workload stören. Zudem treten bei heutigen Supercomputern alle paar Stunden GPU- oder andere Hardwareausfälle auf, was bei einer Skalierung auf die 30-fache Größe der heutigen größten Cluster noch ausgeprägter wäre. Aber man muss wohl auch festhalten: Wenn die Umsetzung eines solchen Projekts theoretisch möglich ist, wird es wohl auch jemand in der Praxis versuchen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Wenn jemand dafür bekannt ist, das unerreichbar Erscheinende erreichen zu wollen, dann ist es wohl Elon Musk. Der Trainingscluster seiner xAI soll laut seinen Angaben Anfang Juni 2024 in wenigen Monaten online gehen – und dieser Cluster umfasse 100.000 H100-Chips von Nvidia. Der nächste größere Schritt, so Musk in seinem Beitrag, wäre wohl bis zum kommenden Sommer auf etwa 300.000 Blackwell-Chips B200 umzusteigen. Wir werden sehen, ob es wirklich dazu kommt. (sb)