Supercomputer und KI Absolut absurd? AMD bekommt Anfragen für KI-Cluster mit mehr als einer Million GPUs

Von Susanne Braun 4 min Lesedauer

Anbieter zum Thema

In einem Interview mit The Next Platform räumt AMDs Forrest Norrod, General Manager des Datacenter-Geschäfts, ein, dass es Anfragen gibt, eine absurd hoch erscheinende Menge an GPUs in einen KI-Cluster zu verbauen. Neben den Anschaffungskosten dürften unter aktuellen Gesichtspunkten auch der Stromverbrauch und die Ausfallraten sehr hoch ausfallen.

AMDs größter Wachstumsbereich ist das Geschäft mit Rechenzentren für KI. Offenbar bekommt der Hersteller für KI-Chips durchaus Anfragen für absurd groß erscheinende KI-Trainingscluster.(Bild:  AMD)
AMDs größter Wachstumsbereich ist das Geschäft mit Rechenzentren für KI. Offenbar bekommt der Hersteller für KI-Chips durchaus Anfragen für absurd groß erscheinende KI-Trainingscluster.
(Bild: AMD)

Künstliche Intelligenz wird beschworen, die vierte industrielle Revolution einzuleiten, und es ist nicht von der Hand zu weisen, dass die Technologie in der Lage ist, unter anderem Effizienzen zu steigern. Das ist insbesondere der Geschwindigkeit zuzurechnen, mit der Daten gesammelt und analysiert werden können, um damit einen wahrscheinlichen Blick in die Zukunft zu werfen.

Ermöglicht wird künstliche Intelligenz nicht nur mit enormer Rechenleistung, sondern vor allem mit dem Training enormer Datenmengen, damit eine KI überhaupt erst so gut wird, wie sie, für unser Verständnis, sein kann. Insgesamt sind große Sprachmodelle wie GPT-4 oder BERT leistungsstarke Werkzeuge, die das Potenzial haben, viele Aspekte der Verarbeitung natürlicher Sprache zu revolutionieren. Jedoch bringen sie auch Herausforderungen mit sich, die sorgfältig adressiert werden müssen.

Das Training und der Betrieb großer Sprachmodelle erfordern erhebliche Rechenressourcen und ihre Leistung hängt stark von der Qualität und Diversität der Trainingsdaten ab. Große Sprachmodelle können Vorurteile und unangemessene Inhalte aus den Trainingsdaten übernehmen und reproduzieren.

Konzentriert man sich auf den Aspekt der Rechenleistung, dann wäre man möglicherweise versucht zu glauben: Je mehr GPUs in einem KI-Cluster parallel Berechnungen ausführen können, desto schneller und effektiver lernt ein LLM, nicht wahr? Ganz so einfach ist es möglicherweise aber nicht. Die KI-Chips kosten an sich ein Heidengeld; wir sprechen hier von fünfstelligen Summen pro Chip. Je mehr Hardware mit Strom versorgt werden muss, desto höher ist entsprechend der Stromverbrauch und zudem wird eine robuste Stromversorgung benötigt. Und dann steigt mit der Menge der Einzelteile eines Systems auch noch die Ausfallwahrscheinlichkeit der Komponenten. Die Skalierung von KI-Clustern ist nicht ganz so trivial, wie es erscheinen mag; mehr ist nicht automatisch besser. 

Mehr als eine Million GPUs in einem KI-Trainingscluster?

Insofern erscheinen Anfragen, die bei KI-Chip-Hersteller AMD auflaufen, mitunter absurd. Im Gespräch mit der Plattform The Next Platform räumt AMDs Forrest Norrod ein, dass es ernst gemeinte Anfragen an das Unternehmen gäbe, in einem KI-Cluster, also in einer Maschine, GPU-Mengen in der Größenordnung von einer Million zu verbauen.

Timothy Prickett Morgan (nachfolgend TPM) von The Next Platform spricht Norrod im Gespräch darauf an, dass es offenbar Visionen, wenn nicht gar Pläne für KI-Trainingscluster gibt, die „verblüffend“ sind. Die Unterhaltung, die Sie bei The Next Platform im Original lesen können, spielte sich in etwa wie folgt ab:

Norrod: […] Aber einige der in Erwägung gezogenen KI-Trainingscluster sind wirklich verblüffend. …

TPM: Welches ist der größte KI-Trainingscluster, den jemand ernsthaft ins Auge gefasst hat – Sie müssen keine Namen nennen. Ist jemand zu Ihnen gekommen und hat gesagt, mit MI500 benötige ich 1,2 Millionen GPUs oder so?

Forrest Norrod: Liegt es in diesem Bereich? Ja.

TPM: Sie können nicht einfach sagen: „Es liegt in diesem Bereich“. Was ist die größte tatsächliche Zahl?

Forrest Norrod: Ich meine es todernst, sie liegt in diesem Bereich.

TPM: Für eine Maschine.

Forrest Norrod: Ja, ich spreche von einer Maschine.

TPM: Das verblüfft einen schon ein wenig, wissen Sie?

Forrest Norrod: Das verstehe ich. Das Ausmaß dessen, was hier in Erwägung gezogen wird, ist überwältigend. Wird das alles Wirklichkeit werden? Ich weiß es nicht. Aber es gibt öffentliche Berichte von sehr ernsthaften Leuten, die darüber nachdenken, Dutzende Milliarden Dollar oder sogar hundert Milliarden Dollar für Trainingscluster auszugeben.

Supercomputer Frontier verfügt über 30-mal weniger GPUs

Um das in eine Relation zu setzen, ziehen die Autoren von Tom's Hardware den aktuell leistungsfähigsten Supercomputer der Welt heran, Frontier von Hewlett Packard Enterprise und Cray. Der verfügt nämlich „nur“ über mehr als 37.000 AMD-MI250X-GPUs, die eine Spitzenleistung von 1,1 ExaFLOPS leisten können.

Wolle man wirklich ein System mit mehr als einer Million GPUs bauen, dann gilt es abseits der Kosten und des wirklich massiven Stromverbrauchs noch weitere Herausforderungen zu meistern. KI-Arbeitslasten sind besonders empfindlich gegenüber Latenz, insbesondere der sogenannten „Tail Latency“ und anderen Ausreißern dieser Art, bei denen bestimmte Datenübertragungen viel länger dauern und die Workload stören. Zudem treten bei heutigen Supercomputern alle paar Stunden GPU- oder andere Hardwareausfälle auf, was bei einer Skalierung auf die 30-fache Größe der heutigen größten Cluster noch ausgeprägter wäre. Aber man muss wohl auch festhalten: Wenn die Umsetzung eines solchen Projekts theoretisch möglich ist, wird es wohl auch jemand in der Praxis versuchen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
Bildergalerie
Bildergalerie mit 5 Bildern

Wenn jemand dafür bekannt ist, das unerreichbar Erscheinende erreichen zu wollen, dann ist es wohl Elon Musk. Der Trainingscluster seiner xAI soll laut seinen Angaben Anfang Juni 2024 in wenigen Monaten online gehen – und dieser Cluster umfasse 100.000 H100-Chips von Nvidia. Der nächste größere Schritt, so Musk in seinem Beitrag, wäre wohl bis zum kommenden Sommer auf etwa 300.000 Blackwell-Chips B200 umzusteigen. Wir werden sehen, ob es wirklich dazu kommt. (sb)

(ID:50084361)