KI aus China verdreht Investoren den Kopf DeepSeek: KI-Konkurrenz für die USA und die Reaktionen

Von Susanne Braun 7 min Lesedauer

Anbieter zum Thema

Das aktuellste Buzzword der KI-Welt ist DeepSeek. Das chinesische Unternehmen hat die Welt mit einem KI-Modell geschockt, das effizienter und kostengünstiger als die US-Konkurrenz von OpenAI arbeiten soll. Was steckt dahinter?

Bislang wird der KI-Markt von US-amerikanischen Unternehmen beherrscht. DeepSeek aus China hat diesen Markt aufgestört.(Bild:  Dall-E / KI-generiert)
Bislang wird der KI-Markt von US-amerikanischen Unternehmen beherrscht. DeepSeek aus China hat diesen Markt aufgestört.
(Bild: Dall-E / KI-generiert)

Durch die KI-Welt sind in den letzten Tagen des Januar 2025, pünktlich zum chinesischen Neujahr, solche Wellen geschlagen, wie eher selten zu sehen sind. Diese Wellen waren so mächtig, dass der Top-1-Anbieter von KI-Hardware, Nvidia, der Liebling der Spekulanten in den vergangenen zwei Jahren, einen Kurseinsturz von fast 20 Prozent verkraften musste. Das waren fast 600 Milliarden US-Dollar, die da einfach verpufften. Und diese Wellen haben gezeigt, dass der wirtschaftliche Erfolg, der einige spezifische KI-Unternehmen in den vergangenen Jahren durch die Decke gehen ließ, auf tönernen Füßen gebaut ist.

Was ist passiert? Das chinesische Unternehmen DeepSeek hat am 20. Januar 2025 ein Large Language Model auf den Markt gebracht, das so leistungsfähig wie die neuesten Systeme von OpenAI sein soll – und dafür nur einen Bruchteil kosten soll. Auch soll das Modell auf älterer Nvidia-Hardware laufen, nicht auf den neuesten Entwicklungen. KI-Modelle, die nicht die neuesten GPUs und Beschleuniger nutzen und dennoch effizienter als OpenAIs Angebote arbeiten? Das klingt nach einer interessanten Theorie.

Und diese Theorie allein sorgte für einen ungewöhnlich steilen Absturz der Nvidia-Wertpapiere, der angesichts der letzten Höhenflüge schmerzt. OpenAI ist kein Aktienunternehmen, aber Hauptpartner Microsoft hat nach den DeepSeek-Ankündigungen ebenfalls an der Börse rotgesehen. Aber warum genau hat DeepSeek die „etablierte“ KI-Welt so in ihren Grundfesten erschüttert? Wir beleuchten das Thema etwas genauer.

Das Wunderkind: DeepSeek-R1

DeepSeek-R1 basiert auf maschinellem Lernen und verwendet eine Transformer-Architektur. In die Deep-Learning-Achitektur wird ein Aufmerksamkeitsmechanismus integriert, der Text in numerische Darstellungen (Token) und anschließend durch Worteinbettung in Vektoren umwandelt (siehe Wikipedia). Transformer-Modelle werden anhand einer großen Menge von Beispieltexten trainiert, ähnlich wie Modelle, deren Grundlage sie bilden. Denn Transformer sind die Grundarchitektur von generativen vortrainierten Transformern – GPTs.

DeepSeek-R1 wurde unter der Open-Source-Lizenz des MIT veröffentlicht und ist entsprechend kommerziell wie wissenschaftlich ohne Einschränkungen nutzbar. Das macht eine Besonderheit von DeepSeek-R1 aus, denn die meisten KI-Systeme werden proprietär durch restriktive Lizenzen geschützt. Hardware-seitig sollen H800-GPUs von Nvidia im Einsatz sein, also nicht die aktuellste Generation an KI-Chips, denn die darf nun seit geraumer Zeit nicht mehr nach China geliefert werden. Eine andere Besonderheit von DeepSeek-R1 soll seine Effizienz sein, mit der das Modell trainiert wurde, was sich unter anderem direkt auf den Stromverbrauch auswirkt.

DeepSeek-R1 wurde mithilfe von Reinforcement Learning (RL) trainiert, ohne auf supervised fine-tuning (SFT) angewiesen zu sein, was die Entwicklung natürlicher Reasoning-Fähigkeiten ohne annotierte Daten ermöglichte. Zur Effizienzsteigerung kam die Group Relative Policy Optimization (GRPO) zum Einsatz, die Trainingskosten senkte, indem sie auf ein separates Kritiker-Modell verzichtete und Gruppenscores als Baseline nutzte. Ein Cold-Start-Verfahren stabilisierte das Modell zu Beginn mit einer kleinen Menge kuratierter Daten. Während des Trainings verbesserte sich die Leistung von DeepSeek-R1-Zero von 15,6 auf 71,0 Prozent im AIME-2024-Benchmark, da das Modell zunehmend komplexere Reasoning-Strategien autonom erlernte. Insgesamt trugen RL, GRPO und selbst verbessernde Mechanismen zu einer starken Steigerung der Reasoning-Fähigkeiten bei.

Angesichts der Tatsache, dass KI-Rechenzentren insbesondere für das Training unglaubliche Mengen an Strom benötigen, sind DeepSeeks Effizienzversprechen verlockend. Es wird seit Längerem damit gerechnet, dass bis zum Jahr 2030 sieben bis zehn Prozent des weltweiten Strombedarfs allein von Rechenzentren verbraucht werden. Nicht ohne Grund arbeiten Entwickler und Hersteller entsprechend seit einiger Zeit vordergründig an der Energieeffizienz für die Rechenzentrums-Hardware.

Wie wirkt sich das auf den Kunden aus? Für die Verarbeitung einer Million Tokens berechnet OpenAIs O1-1217-API etwa 15 US-Dollar. Für die DeepSeek-API nimmt für denselben Service aktuell 0,55 US-Dollar (via Prompt Hackers). Selbst wenn DeepSeek-R1 nicht so effizient arbeiten würde oder das Angebot durch massive Investitionen kostengünstiger gestaltet wird, ist diese Differenz frappierend. Und wenn der DeepSeek-Preis nur bei 5 US-Dollar pro eine Million Token läge, wäre das immer noch ein Drittel weniger als bei OpenAIs effizientesten KI-Modell.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Fraglich ist nun natürlich, ob das DeepSeek-Modell nun weltweit die Preise in den Keller drücken wird. Genauso fraglich ist, welchen Preis die Nutzer wirklich zahlen. Darauf kommen wir gleich noch zu sprechen. Übrigens: Am 27. Januar 2025 hat DeepSeek im R1-Fahrwasser auch noch das multimodale KI-Modell Janus-Pro veröffentlicht. Das ebenfalls unter der Open-Source-Lizenz veröffentlichte Modell soll eine Konkurrenz zu Bildgeneratoren wie DALL:E und Midjourney darstellen.

Microsoft und OpenAI vermuten Datendiebstahl

Angesichts der Tatsache, dass das Unternehmen erst 2023 und eine damit zusammenhängende Forschungsgruppe, die sich mit der Grundlagenforschung zu künstlicher Intelligenz beschäftigte, erst 2021 gegründet wurde, mischt DeepSeek etablierte KI-Player ordentlich auf. Da kommt die Vermutung auf, dass für das Training der DeepSeek-Modelle Daten aus der API von OpenAI genutzt werden – diese Vermutung haben zumindest Verantwortliche von Microsoft und OpenAI seit dem Release von R1 und stellen Untersuchungen in der Hinsicht an. Unterdessen vermuten die US-Behörden, dass DeepSeek sein Modell anhand der Ergebnisse von OpenAI trainiert hat, eine Methode, die als Distillation bekannt ist, so heißt es bei Tom's Hardware auf Basis von Quellen von Bloomberg und Financial Times.

Wie würde dieser Datendiebstahl funktionieren? „Die API von OpenAI ermöglicht es Entwicklern, die proprietären Modelle des Unternehmens gegen eine Gebühr in ihre Anwendungen zu integrieren und einige Daten abzurufen. Der von den Microsoft-Untersuchern festgestellte übermäßige Datenabruf verstößt jedoch gegen die Geschäftsbedingungen von OpenAI und deutet auf einen Versuch hin, die Beschränkungen von OpenAI zu umgehen“, erklärt Anton Shilov von Tom's Hardware. Gegenüber Bloomberg und Financial Times ließ OpenAI verlauten, dass es bekannte und gängige Praxis von Unternehmen aus China und anderen Ländern sei, bei führenden US-KI-Unternehmen Destillation anzuwenden und man versuche, bestmöglich dagegen vorzugehen.

Es bleibt abzuwarten, ob sich tatsächlich handfeste Beweise für die Daten-Distillation bei DeepSeek oder anderen chinesischen und nicht amerikanischen KI-Modellen finden lassen. Die ganze Sache weckt Erinnerungen daran, wie Kartografen einstmals unter anderem Trap Streets, kleine Fehler oder andere Markierungen genutzt haben, um Plagiarismus anderer Verlage oder Diensten wie Google Maps nachzuweisen.

DeepSeeks „Reinforcement Learning“-Methode für das Training von KI-Modellen wurde übrigens auch auf andere Modelle angewandt. „Zur Unterstützung der Forschungsgemeinschaft zu unterstützen, stellen wir DeepSeek-R1-Zero, DeepSeek-R1 und sechs dichte Modelle (1.5B, 7B, 8B, 14B, 32B, 70B) zur Verfügung, die aus DeepSeek-R1 auf Grundlage von Qwen und Llama distilliert wurden“, heißt es im zu R1 veröffentlichten Paper. Diese Formulierung legt nahe, dass zumindest einige der DeepSeek-R1-Modelle durch Distillation von Qwen- und Llama-Modellen entstanden sind. Das bedeutet jedoch nicht zwangsläufig, dass DeepSeek-R1 selbst auf diesen Modellen beziehungsweise nicht ausschließlich auf diesen Modellen basiert – da kämen dann eigene Entwicklungen oder zusätzliche Trainingsprozesse ins Spiel.

Wie antworten die „traditionellen“ Unternehmen?

Mit dem bahnbrechenden Wirbel um DeepSeek und das R1-Modell verloren große Techkonzerne wie Nvidia, Alphabet, Microsoft und Oracle zusammengenommen von jetzt auf gleich über eine Billion US-Dollar an Marktwert. Investoren befürchteten den plötzlichen Sturz der US-Dominanz auf dem KI-Markt – und haben ihrer Angst mit ihrer Anlagenflucht gleich mal nachgegeben.

Mit seiner Amtseinführung stellte Donald Trump die Initiative Stargate mit massiven Wirtschaftsinvestitionen in die KI-Infrastruktur der USA vor. In den nächsten Jahren sollen rund 500 Milliarden US-Dollar investiert werden, unter anderem von Unternehmen wie Softbank, Oracle und OpenAI. Trump wurde am 20. Januar 2025 vereidigt, am selben Tag, merken Sie etwas, trat DeepSeek mit dem R1-Modell ins Rampenlicht. US-amerikanische KI-Unternehmen werden die chinesische Konkurrenz allerdings schon mit dem Release von V3 von DeepSeek im Blick gehabt haben.

DeepSeek bietet nicht die ersten KI-Modelle, die im Hinblick auf Kosteneffizienz beim Training im Vergleich zu anderen Modellen punkten. „In Europa war Mistral in der Lage, für einen Großteil des Jahres 2024 Open-Source-Modelle bereitzustellen, die mit den offenen Llama-Modellen von Meta konkurrieren konnten, aber mit einem Bruchteil des Budgets trainiert wurden“, so Walter Goodwin, CEO und Gründer des britischen Start-ups Fractile, in das jüngst Intels Ex-CEO Gelsinger einiges an Investitionen gesteckt hat. In Goodwins Augen sollte Europa aus dem DeepSeek-Erfolg Lehren ziehen, denn man verfügt über fähiges Personal, ist technisch allerdings nicht so eingeschränkt wie ein chinesisches Unternehmen. Entsprechend wäre DeepSeek als lauter Weckruf für Europa zu sehen, wenn man bei KI weiterhin mitmischen wolle.

Nach der Panik an der Börse spornt der von DeepSeek angestoßene disruptive Prozess im Markt allerlei Spieler im KI-Markt zu weiteren Investitionsversprechen an, um die US-amerikanische Vormachtstellung zu sichern. Mark Zuckerberg versprach Milliarden-Investitionen in Metas KI-Infrastruktur, der japanische Softbank-Konzern will Berichten zufolge rund 25 Milliarden US-Dollar in OpenAI investieren.

Halten wir also fest: Die Aussicht darauf, dass künstliche Intelligenz auf Energieeffizienz und damit auf Kostenersparnis getrimmt werden kann, lässt die Dollar sprudeln. Und das führt hoffentlich zu einem gesunden, globalen Wettbewerb – jetzt und auch in Zukunft, und zwar, ohne dass Regierungen glauben, an ihren Grenzen Verbotsschilder aufstellen zu müssen.

In einem weiteren Bericht greifen wir die Themen Datenschutz, Zensur und weitere KI-Modelle aus China auf. (sb)

(ID:50304633)