Das aktuellste Buzzword der KI-Welt ist DeepSeek. Das chinesische Unternehmen hat die Welt mit einem KI-Modell geschockt, das effizienter und kostengünstiger als die US-Konkurrenz von OpenAI arbeiten soll. Was steckt dahinter?
Bislang wird der KI-Markt von US-amerikanischen Unternehmen beherrscht. DeepSeek aus China hat diesen Markt aufgestört.
(Bild: Dall-E / KI-generiert)
Durch die KI-Welt sind in den letzten Tagen des Januar 2025, pünktlich zum chinesischen Neujahr, solche Wellen geschlagen, wie eher selten zu sehen sind. Diese Wellen waren so mächtig, dass der Top-1-Anbieter von KI-Hardware, Nvidia, der Liebling der Spekulanten in den vergangenen zwei Jahren, einen Kurseinsturz von fast 20 Prozent verkraften musste. Das waren fast 600 Milliarden US-Dollar, die da einfach verpufften. Und diese Wellen haben gezeigt, dass der wirtschaftliche Erfolg, der einige spezifische KI-Unternehmen in den vergangenen Jahren durch die Decke gehen ließ, auf tönernen Füßen gebaut ist.
Was ist passiert? Das chinesische Unternehmen DeepSeek hat am 20. Januar 2025 ein Large Language Model auf den Markt gebracht, das so leistungsfähig wie die neuesten Systeme von OpenAI sein soll – und dafür nur einen Bruchteil kosten soll. Auch soll das Modell auf älterer Nvidia-Hardware laufen, nicht auf den neuesten Entwicklungen. KI-Modelle, die nicht die neuesten GPUs und Beschleuniger nutzen und dennoch effizienter als OpenAIs Angebote arbeiten? Das klingt nach einer interessanten Theorie.
Und diese Theorie allein sorgte für einen ungewöhnlich steilen Absturz der Nvidia-Wertpapiere, der angesichts der letzten Höhenflüge schmerzt. OpenAI ist kein Aktienunternehmen, aber Hauptpartner Microsoft hat nach den DeepSeek-Ankündigungen ebenfalls an der Börse rotgesehen. Aber warum genau hat DeepSeek die „etablierte“ KI-Welt so in ihren Grundfesten erschüttert? Wir beleuchten das Thema etwas genauer.
Das Wunderkind: DeepSeek-R1
DeepSeek-R1 basiert auf maschinellem Lernen und verwendet eine Transformer-Architektur. In die Deep-Learning-Achitektur wird ein Aufmerksamkeitsmechanismus integriert, der Text in numerische Darstellungen (Token) und anschließend durch Worteinbettung in Vektoren umwandelt (siehe Wikipedia). Transformer-Modelle werden anhand einer großen Menge von Beispieltexten trainiert, ähnlich wie Modelle, deren Grundlage sie bilden. Denn Transformer sind die Grundarchitektur von generativen vortrainierten Transformern – GPTs.
DeepSeek-R1 wurde unter der Open-Source-Lizenz des MIT veröffentlicht und ist entsprechend kommerziell wie wissenschaftlich ohne Einschränkungen nutzbar. Das macht eine Besonderheit von DeepSeek-R1 aus, denn die meisten KI-Systeme werden proprietär durch restriktive Lizenzen geschützt. Hardware-seitig sollen H800-GPUs von Nvidia im Einsatz sein, also nicht die aktuellste Generation an KI-Chips, denn die darf nun seit geraumer Zeit nicht mehr nach China geliefert werden. Eine andere Besonderheit von DeepSeek-R1 soll seine Effizienz sein, mit der das Modell trainiert wurde, was sich unter anderem direkt auf den Stromverbrauch auswirkt.
DeepSeek-R1 wurde mithilfe von Reinforcement Learning (RL) trainiert, ohne auf supervised fine-tuning (SFT) angewiesen zu sein, was die Entwicklung natürlicher Reasoning-Fähigkeiten ohne annotierte Daten ermöglichte. Zur Effizienzsteigerung kam die Group Relative Policy Optimization (GRPO) zum Einsatz, die Trainingskosten senkte, indem sie auf ein separates Kritiker-Modell verzichtete und Gruppenscores als Baseline nutzte. Ein Cold-Start-Verfahren stabilisierte das Modell zu Beginn mit einer kleinen Menge kuratierter Daten. Während des Trainings verbesserte sich die Leistung von DeepSeek-R1-Zero von 15,6 auf 71,0 Prozent im AIME-2024-Benchmark, da das Modell zunehmend komplexere Reasoning-Strategien autonom erlernte. Insgesamt trugen RL, GRPO und selbst verbessernde Mechanismen zu einer starken Steigerung der Reasoning-Fähigkeiten bei.
Angesichts der Tatsache, dass KI-Rechenzentren insbesondere für das Training unglaubliche Mengen an Strom benötigen, sind DeepSeeks Effizienzversprechen verlockend. Es wird seit Längerem damit gerechnet, dass bis zum Jahr 2030 sieben bis zehn Prozent des weltweiten Strombedarfs allein von Rechenzentren verbraucht werden. Nicht ohne Grund arbeiten Entwickler und Hersteller entsprechend seit einiger Zeit vordergründig an der Energieeffizienz für die Rechenzentrums-Hardware.
Wie wirkt sich das auf den Kunden aus? Für die Verarbeitung einer Million Tokens berechnet OpenAIs O1-1217-API etwa 15 US-Dollar. Für die DeepSeek-API nimmt für denselben Service aktuell 0,55 US-Dollar (via Prompt Hackers). Selbst wenn DeepSeek-R1 nicht so effizient arbeiten würde oder das Angebot durch massive Investitionen kostengünstiger gestaltet wird, ist diese Differenz frappierend. Und wenn der DeepSeek-Preis nur bei 5 US-Dollar pro eine Million Token läge, wäre das immer noch ein Drittel weniger als bei OpenAIs effizientesten KI-Modell.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Fraglich ist nun natürlich, ob das DeepSeek-Modell nun weltweit die Preise in den Keller drücken wird. Genauso fraglich ist, welchen Preis die Nutzer wirklich zahlen. Darauf kommen wir gleich noch zu sprechen. Übrigens: Am 27. Januar 2025 hat DeepSeek im R1-Fahrwasser auch noch das multimodale KI-Modell Janus-Pro veröffentlicht. Das ebenfalls unter der Open-Source-Lizenz veröffentlichte Modell soll eine Konkurrenz zu Bildgeneratoren wie DALL:E und Midjourney darstellen.
Microsoft und OpenAI vermuten Datendiebstahl
Angesichts der Tatsache, dass das Unternehmen erst 2023 und eine damit zusammenhängende Forschungsgruppe, die sich mit der Grundlagenforschung zu künstlicher Intelligenz beschäftigte, erst 2021 gegründet wurde, mischt DeepSeek etablierte KI-Player ordentlich auf. Da kommt die Vermutung auf, dass für das Training der DeepSeek-Modelle Daten aus der API von OpenAI genutzt werden – diese Vermutung haben zumindest Verantwortliche von Microsoft und OpenAI seit dem Release von R1 und stellen Untersuchungen in der Hinsicht an. Unterdessen vermuten die US-Behörden, dass DeepSeek sein Modell anhand der Ergebnisse von OpenAI trainiert hat, eine Methode, die als Distillation bekannt ist, so heißt es bei Tom's Hardware auf Basis von Quellen von Bloomberg und Financial Times.
Wie würde dieser Datendiebstahl funktionieren? „Die API von OpenAI ermöglicht es Entwicklern, die proprietären Modelle des Unternehmens gegen eine Gebühr in ihre Anwendungen zu integrieren und einige Daten abzurufen. Der von den Microsoft-Untersuchern festgestellte übermäßige Datenabruf verstößt jedoch gegen die Geschäftsbedingungen von OpenAI und deutet auf einen Versuch hin, die Beschränkungen von OpenAI zu umgehen“, erklärt Anton Shilov von Tom's Hardware. Gegenüber Bloomberg und Financial Times ließ OpenAI verlauten, dass es bekannte und gängige Praxis von Unternehmen aus China und anderen Ländern sei, bei führenden US-KI-Unternehmen Destillation anzuwenden und man versuche, bestmöglich dagegen vorzugehen.
Es bleibt abzuwarten, ob sich tatsächlich handfeste Beweise für die Daten-Distillation bei DeepSeek oder anderen chinesischen und nicht amerikanischen KI-Modellen finden lassen. Die ganze Sache weckt Erinnerungen daran, wie Kartografen einstmals unter anderem Trap Streets, kleine Fehler oder andere Markierungen genutzt haben, um Plagiarismus anderer Verlage oder Diensten wie Google Maps nachzuweisen.
DeepSeeks „Reinforcement Learning“-Methode für das Training von KI-Modellen wurde übrigens auch auf andere Modelle angewandt. „Zur Unterstützung der Forschungsgemeinschaft zu unterstützen, stellen wir DeepSeek-R1-Zero, DeepSeek-R1 und sechs dichte Modelle (1.5B, 7B, 8B, 14B, 32B, 70B) zur Verfügung, die aus DeepSeek-R1 auf Grundlage von Qwen und Llama distilliert wurden“, heißt es im zu R1 veröffentlichten Paper. Diese Formulierung legt nahe, dass zumindest einige der DeepSeek-R1-Modelle durch Distillation von Qwen- und Llama-Modellen entstanden sind. Das bedeutet jedoch nicht zwangsläufig, dass DeepSeek-R1 selbst auf diesen Modellen beziehungsweise nicht ausschließlich auf diesen Modellen basiert – da kämen dann eigene Entwicklungen oder zusätzliche Trainingsprozesse ins Spiel.
Wie antworten die „traditionellen“ Unternehmen?
Mit dem bahnbrechenden Wirbel um DeepSeek und das R1-Modell verloren große Techkonzerne wie Nvidia, Alphabet, Microsoft und Oracle zusammengenommen von jetzt auf gleich über eine Billion US-Dollar an Marktwert. Investoren befürchteten den plötzlichen Sturz der US-Dominanz auf dem KI-Markt – und haben ihrer Angst mit ihrer Anlagenflucht gleich mal nachgegeben.
Mit seiner Amtseinführung stellte Donald Trump die Initiative Stargate mit massiven Wirtschaftsinvestitionen in die KI-Infrastruktur der USA vor. In den nächsten Jahren sollen rund 500 Milliarden US-Dollar investiert werden, unter anderem von Unternehmen wie Softbank, Oracle und OpenAI. Trump wurde am 20. Januar 2025 vereidigt, am selben Tag, merken Sie etwas, trat DeepSeek mit dem R1-Modell ins Rampenlicht. US-amerikanische KI-Unternehmen werden die chinesische Konkurrenz allerdings schon mit dem Release von V3 von DeepSeek im Blick gehabt haben.
DeepSeek bietet nicht die ersten KI-Modelle, die im Hinblick auf Kosteneffizienz beim Training im Vergleich zu anderen Modellen punkten. „In Europa war Mistral in der Lage, für einen Großteil des Jahres 2024 Open-Source-Modelle bereitzustellen, die mit den offenen Llama-Modellen von Meta konkurrieren konnten, aber mit einem Bruchteil des Budgets trainiert wurden“, so Walter Goodwin, CEO und Gründer des britischen Start-ups Fractile, in das jüngst Intels Ex-CEO Gelsinger einiges an Investitionen gesteckt hat. In Goodwins Augen sollte Europa aus dem DeepSeek-Erfolg Lehren ziehen, denn man verfügt über fähiges Personal, ist technisch allerdings nicht so eingeschränkt wie ein chinesisches Unternehmen. Entsprechend wäre DeepSeek als lauter Weckruf für Europa zu sehen, wenn man bei KI weiterhin mitmischen wolle.
Nach der Panik an der Börse spornt der von DeepSeek angestoßene disruptive Prozess im Markt allerlei Spieler im KI-Markt zu weiteren Investitionsversprechen an, um die US-amerikanische Vormachtstellung zu sichern. Mark Zuckerberg versprach Milliarden-Investitionen in Metas KI-Infrastruktur, der japanische Softbank-Konzern will Berichten zufolge rund 25 Milliarden US-Dollar in OpenAI investieren.
Halten wir also fest: Die Aussicht darauf, dass künstliche Intelligenz auf Energieeffizienz und damit auf Kostenersparnis getrimmt werden kann, lässt die Dollar sprudeln. Und das führt hoffentlich zu einem gesunden, globalen Wettbewerb – jetzt und auch in Zukunft, und zwar, ohne dass Regierungen glauben, an ihren Grenzen Verbotsschilder aufstellen zu müssen.
In einem weiteren Bericht greifen wir die Themen Datenschutz, Zensur und weitere KI-Modelle aus China auf. (sb)