Kostenfaktor KI-Entwicklung Was bedeutet DeepSeek für den Markt mit KI-Modellen?

Von Sebastian Gerstl 11 min Lesedauer

Anbieter zum Thema

Die Ankündigung von DeepSeek, vor allem die Open-Source-Verfügbarkeit des sogenannten Reasoning-LLMs R1, hat Börsen in Panik versetzt. Doch was ist an der Aussage dran, dass die DeepSeek-Entwicklung vergleichsweise kostengünstig ist? In wie weit ist der Trainingsansatz anders? Und wie wirkt sich das auf den Markt für KI-Modelle aus?

Aufbruch ins Ungewisse: Mit seiner Open-Source-Verfügbarkeit und angeblich deutlich geringeren Betreibungskosten sagt das Reasoning-LLM R1 von DeepSeek etablierten KI-Modell-Anbietern offen den Kampf an - allen voran ChatGPT-Betreiber OpenAI. (Bild:  Screenshot / DeepSeek)
Aufbruch ins Ungewisse: Mit seiner Open-Source-Verfügbarkeit und angeblich deutlich geringeren Betreibungskosten sagt das Reasoning-LLM R1 von DeepSeek etablierten KI-Modell-Anbietern offen den Kampf an - allen voran ChatGPT-Betreiber OpenAI.
(Bild: Screenshot / DeepSeek)

Die Meldung des chinesischen KI-Startups DeepSeek sorgte für ein Erdbeben an der Börse: Am 20. Januar 2025 kündigte das Unternehmen die Verfügbarkeit eines Large Language Models (LLM) an, dass sich direkt mit den Leistungen des OpenAI-Spitzenmodells o1 messen lassen soll – und das zu einem Bruchteil des Preises. Mehr noch: Das sogenannte Reasoning-LLM DeepSeek-R1 soll unter einer MIT-Lizenz nach Open-Souce verfügbar sein - und damit frei zum Download und zur Modifizierung nach eigenen Bedürfnissen zur Verfügung stehen.

Tatsächlich ist R1 nicht das einzige LLM, dass DeepSeek per Open Source Lizenz zur Verfügung stellt. Bereits im Dezember 2024, von der Öffentlichkeit noch relativ wenig beachtet, erschien das Modell DeepSeek-V3, ein „Mixture-of-Experts" (MoE) LLM mit insgesamt 671 Milliarden Parameter, von denen 37 Milliarden pro Parameter aktiviert sind. Das Aufsehen im Januar wurde erst so richtig durch die Veröffentlichung einer kostenlosen Chatbot-App losgetreten, die sich mit ChatGPT vergleichen lässt - und in Windeseile die Spitzen der Charts auf Mobile App Stores erstürmte. Die propagierte hervorragende Leistung der DeepSeek-Modelle, die mit den besten proprietären LLMs von OpenAI und Anthropic konkurrieren kann, führte am 27. Januar zu einem Kurssturz an der Börse. Unternehmen wie NVIDIA, AMD und weitere führende KI-Unternehmen stürzten zusammen um geschätzt mehr als 600 Milliarden US-Dollar ab.

Anbieter westlicher KI-Modelle aus den USA, wie der Meta-Konzern mit seinem (ebenfalls nach Open Source lizensierbaren) Llama-v2-Modell oder Microsoft als Hauptinvestor des ChatGPT-Entwicklers OpenAI blieben auf die Nachricht nachdrücklich gelassen, stellen den Vorwurf des IP-Diebstahls in den Raum und reagierten mit weiteren milliardenschweren Investitionen in ihre eigenen Modelle. Die Open-Source-Community reagierte hingegen mit regelrechtem Enthusiasmus. Auf der KI-Community Plattform Huggingface existieren nach nur einem Monat der Verfügbarkeit bereits mehr als 700 Modelle, die auf DeepSeek-R1 oder DeepSeek-V3 aufsetzen. Das Reasoning-LLM R1 mit 685 Milliarden Parametern wurde von dort direkt (Stand 31. Januar 2025) bereits über 670.000 Mal heruntergeladen, das MoE-Modell DeepSeek-V3 sogar bereits über 800.000 Mal.

Was macht DeepSeek anders?

DeepSeek selbst behauptet, dass das Training des DeepSeek-V3 Modells gerade einmal 5,6 Millionen US-$ gekostet habe; ein Bruchteil dessen, was von den KI-Modellen von OpenAI oder Meta bekannt ist. Das ist umso erstaunlicher wenn man bedenkt, dass das Training ausschließlich auf H800-GPUs von NVIDIA stattgefunden haben soll. NVIDIA hatte die H800-Reihe im März 2022 auf den Markt gebracht, als eine zu diesem Zeitpunkt weniger performante Variante seiner Hardware-Beschleunigungs-GPUs. Die Bauteile waren von ihren Spezifikationen her so konzipiert, dass sie noch unterhalb der damals geltenden Exportbeschränkungen lagen - und somit noch nach China verkauft werden konnten. So bietet die H800-Reihe eine Boost-Frequenz von 1755 MHz und eine Speicherfrequenz von 1593 MHz. Nachdem sich im Oktober 2023 die Exportbeschränkungen des US-Handelsministeriums weiter verschärft hatten, wurde auch diese GPU-Reihe mit einem Verkaufsverbot nach China belegt. Die Exportbeschränkungen wurden ganz explizit mit dem Ziel verschärft, um China das Training von hochentwickelten LLMs zu erschweren. Offenbar war es dem im selben Jahr offiziell gelaunchten Startup DeepSeek gelungen, einen hinreichenden Vorrat an den benötigten GPUs anzulegen - oder Beschleuniger über andere Wege zu beziehen.

Bei den propagierten 5,6 Millionen US-$ dürfte es sich sicherlich um geschönte Zahlen handeln. Die Marktforscher von SemiAnalysis haben etwa berechnet, dass alleine die Anschaffung von 50.000 Nvidia-GPUs für das Training mindestens 1,6 Milliarden US-$ gekostet haben muss. Allein der laufende Betrieb eines dedizierten Rechenzentrums für die Modellentwicklung müsse dementsprechend geschätzte 944 Millionen US-$ kosten.

Doch auch abseits der echten Kosten lässt die Entwicklung der DeepSeek-Modelle aufhorchen. Schließlich scheint nach allem was bekannt ist DeepSeek mit den verfügbaren KI-Benchmarks beeindruckende Ergebnisse auf weniger leistungsfähiger Hardware erzielt zu haben. Auf Chatbot Arena, einem KI-Bewertungsdienst der University of California in Berkeley, landen sowohl R1 als auch V3 unter den zehn besten verfügbaren KI-Modellen. In dem Ranking lassen die DeepSeek-Modelle unter anderem Claude von Anthropic und Grok von xAI hinter sich. DeepSeek-R1 kann sich hier sogar noch vor dem derzeit noch aktuellsten Build von OpenAI's o1 platzieren.

Doch wie wurde diese mutmaßlich kosteneffizientere Entwicklung auf KI-Beschleunigungs-Hardware der vorletzten Generation erreicht? Zum Einsatz soll dabei ein sogenannter „DualPipe-Parallelitätsalgorithmus“ gekommen sein. Dieser wurde demnach entwickelt wurde, um die Einschränkungen der Nvidia H800 zu umgehen. Er nutzt Low-Level-Programmierung, um genau zu steuern, wie die Trainingsaufgaben geplant und gebündelt werden. Die „Mixture-of-Experts“-Architektur (MoE) des671 Milliarden Parameter umfassenden V3-Modells soll ebenfalls eine gezielte Eigenentwicklung sein, um die Hürden durch schwächere Trainings-Hardware auszugleichen. Statt auf ein explizites neuronales Netzwerk zusetzen, kommt in diesem LLM beim Training ein Mix aus mehreren Netzen, sogenannte „Experten“, zum Einssatz. Diese Experten können auf einzelnen, 37 Milliarden Parameter großen Blöcken innerhalb des gesamten LLMs unabhängig voneinander aktiviert werden. Da jeder Experte kleiner und spezialisierter ist, wird für das Training des Modells weniger Speicher benötigt. Zudem ist das fertige Modell schlanker, wodurch die Rechenkosten niedriger sind, sobald das Modell eingesetzt wird.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

OpenAI gibt die Parameter seiner hochmodernen Modelle zwar nicht bekannt, aber es wird spekuliert, dass die hauseigenen Modelle mehr als eine Billion umfasst. Trotzdem erreichte DeepSeek-V3 mit den vorhandenen Benchmarks Ergebnisse, die mit OpenAIs GPT-4o und Anthropics Claude 3.5 Sonnet übereinstimmen oder diese sogar übertreffen. Natürlich warf dies umgehend Spekulationen auf, ob das LLM tatsächlich diese vergleichbare Leistung erbringt - oder nur speziell darauf optimiert wurde, die Benchmark-Anforderungen zu meistern, aber in praktischen Anwendungsfeldern schwächer abschneidet. Dennoch sorgten die Ergebnisse auch in Fachkreisen für Aufsehen.

Noch eindrucksvoller soll allerdings das sogenannte Reasoning-Modell von DeepSeek, DeepSeek-R1, abschneiden. Dieses Modell wurde explizit entwickelt, um es mit dem OpenAI-S Chain-of-Thought-Spitzenmodell ChatGPT-o1 aufnehmen zu können - ein Fakt, den DeepSeek auf seiner Webseite prominent hervorhebt. Da OpenAi seine LLMs proprietär hält, ist ein genauer Vergleich schwierig. R1 ist im Übrigen nicht das erste offene Reasoning-Modell, dass in den letzten Monaten erschien. Immerhin kann mit Sicherheit gesagt werden das es leistungsfähiger ist als frühere solche Modelle, wie beispielsweise QwQ von Alibiba.

Wie bei DeepSeek-V3 will das chinesische Startup die Ergebnisse mit einem unkonventionellen Ansatz erzielt haben. Die meisten LLMs werden mit einem Verfahren trainiert, das eine überwachte Feinabstimmung (supervised fine-tuning, SFT) umfasst. Bei dieser Technik werden die Antworten des Modells auf Aufforderungen von Menschen überprüft und mit einem Label versehen. Deren Bewertungen fließen wieder in das Training ein, um die Antworten des Modells zu verbessern. Das hatz sich bislang als das effizienteste Verfahren für hochleistungsfähige Modelle herausgestellt. Doch die Überprüfung und Kennzeichnung der Antworten durch Menschen ist zeitaufwändig und teuer - und je komplexer die Modelle werden, umso größer wird der damit verbundene SFT-Aufwand.

Um schneller und günstiger an ein entsprechend starkes LLM zu kommen, versuchte DeepSeek zunächst, auf SFT zu verzichten. Stattdessen setzte man auf Reinforcement Learning (RL), um DeepSeek-R1-Zero zu trainieren. Ein regelbasiertes Belohnungssystem, das im Whitepaper des Modells beschrieben wird, sollte DeepSeek-R1-Zero helfen, das Denken zu erlernen. Dieser Ansatz führte jedoch zu Problemen, wie z. B. der Vermischung von Sprachen (die Verwendung mehrerer Sprachen in einer einzigen Antwort), die das Lesen der Antworten erschwerte.

Daher setzte DeepSeek nach eigener Beschreibung auf einen hybriden Ansatz: Das Training beginnt mit einem „Kaltstart“, der zunächst einen kleinen SFT-Datensatz von nur ein paar tausend Beispielen verwendet. Ist dieser ausgereift, wird ab diesem Zeitpunkt RL verwendet, um das Training zu vervollständigen. Nichtsdestoweniger gibt es genügend KI-Experten, die diesen Ansatz immer noch skeptisch verfolgen: Bei Reinforcement Learning können kleinste Abweichungen oder Fehler, die sich zu Beginn des Trainingvorgangs eingeschlichen haben, bereits weitreichende Konsequenzen haben. Dadurch, dass diese bei einer manuellen Feinabstimmung nicht ausgebessert werden, „verstärken" sich diese Abweichungen mit jedem weiteren Lernzyklus. Bei der Inferenz des fertigen LLM kann sich dann herausstellen, dass das Modell in bestimmten Feldern große Leistungslücken aufweist.

Anzumerken ist an dieser Stelle, dass es mittlerweile handfeste Hinweise darauf gibt, dass die DeepSeek-Modelle bereits in der Trainingsphase der chinesischen Staatszensur unterliegen. Das lässt weitere Zweifel an der allgemeinen Verwendbarkeit der LLMs aufkommen.

„Die Gelegenheit für Europa, um aufzuholen"

Was bedeuten diese Entwicklungen für den KI-Markt? Nachdem Meta im Juli 2023 sein LLM Llama-v2 unter einer Open-Source-Lizenz veröffentlichte, nahm der Markt mit KI-Anwendungen als auch die Entwicklung von KI-Modellen für Forschungszwecke gewaltig an Fahrt auf. Cloud-Anbieter wie AWS, Google Cloud und Microsoft Azure haben Llama-v2 integriert, um ihre Dienste zu verbessern, und bieten Services an, die auf dieses KI-Modell aufbauen können. Dies ermöglicht eine bessere Skalierbarkeit und Flexibilität für Unternehmen, die auf diesen Plattformen arbeiten. Experten halten aber Llama-v2 nicht für geeignet, um komplexe Anfragen zu meistern. Für viel Spott im Netz sorge im Sommer 2024 der „strawberry"-Test: Die drei gängigsten offen verfügbaren KI-Modelle, darunter auch ChatGPT 4.0 und Llama-v2, konnten nicht angeben, dass das Wort „strawberry" über mehr als 2 r verfügte - die Mustererkennung scheiterte an dieser Art von Anfrage.

Derzeit gilt das proprietäre ChatGPT-o1 Modell auf dem KI-Markt als das Maß aller Dinge. Doch selbst wenn DeepSeek-R1 nicht an die Qualität von OpenAI heranreichen sollte: Ein besseres KI-Modell als Llama-v2, dass ebenfalls für kommerzielle und Forschungszwecke nach einer MIT-Lizenz frei zu verwenden und anzupassen ist, dürfte für ein Beben im Markt für KI-Anwendungen sorgen. Potentiell sogar für ein größeres, als es seinerzeit das Erscheinen von Llama-v2 selbst ausgelöst hat.

Dies berge auch Chancen für europäische Unternehmen: „Wenn Sie Ihre Anwendung mit OpenAI entwickelt haben, können Sie leicht zu den anderen migrieren ... der Wechsel dauerte nur Minuten“, Hemanth Mandapati, Chef des deutschen Start-ups Novo AI, gegenüber der Nachrichtenagentur Reuters am Rande der GoWest-Konferenz für Risikokapitalgeber in Göteborg, Schweden. Das Auftauchen von DeepSeek böte Unternehmen Zugang zu hochfortschrittlicher KI-Technologie zu einem Bruchteil der aktuell etablierten Kosten: OpenAI verlangt 2,5 US-Dollar für 1 Million Input-Token, also Dateneinheiten, die vom KI-Modell verarbeitet werden. Für die gleiche Anzahl an Tokens veranschlagt DeepSeek hingegen derzeit 0,014 US-Dollar.

Ferner könnten europäische Unternehmen, die bereits an eigenen Modellen arbeiten, mit nur geringen Ausgaben diese Modelle optimieren und zu einem Bruchteil der bisherigen Preise auf dem Markt anbieten. „Es gab ein Angebot von DeepSeek, das fünfmal niedriger war als die aktuellen Preise“, sagte Mandapati. „Ich spare eine Menge Geld, und die Nutzer sehen keinen Unterschied“.

Auch andere europäische Unternehmer bestätigten diese Ansicht gegenüber Reuters. „Es ist ein bedeutender Schritt zur Demokratisierung der KI und zur Gleichstellung mit Big Tech“, sagte Seena Rejal, Chief Commercial Officer des britischen Unternehmens NetMind.AI. Auch sein Unternehmen hat beschlossen, frühzeitig auf die DeepSeek-Modelle zu setzen. Andere Unternehmen, vor allem größere Konzerne wie Nokia oder SAP, halten sich derzeit aber noch bedeckt. „Kosten sind nur ein Faktor“, sagte Alexandru Voica, Head of Corporate bei dem britischen Unternehmen Synthesia. „Andere Faktoren sind: Haben Sie alle Sicherheitszertifizierungen, die Frameworks, das Software-Ökosystem, das es Unternehmen ermöglicht, mit Ihrer Plattform zu bauen und zu integrieren?" Gerade wenn es um Datensicherheit und IP-Schutz geht sind manche Unternehmen zögerlich, auf einen chinesischen Anbieter in diesem Bereich zu setzen. Hinzu kommen generelle datenschutzrechtliche Bedenken, die Behörden Italiens, Irlands und Belgiens haben bereits Untersuchungen gegen DeepSeek in dieser Richtung eingeleitet.

Der Preiskampf in der Branche hat in jedem Fall bereits begonnen: Vergangenen Freitag, am 31. Januar 2024, kündigte Microsoft an, dass Coplit-Nutzer das ChatGPT-o1-Modell von nun an kostenlos nutzen dürfen. Bislang betrug der Preis für diesen Service noch 20 US-Dollar im Monat. Es ist davon auszugehen, dass auch andere Anbieter hier in Kürze nachziehen dürften.

In der Hobbyistenszene ist derweil der Ansturm auf DeepSeek-Modelle gewaltig. Das liegt auch daran, dass DeepSeek noch eine Reihe kleinerer, abgespeckter Varianten von DeepSeek-R1 mit einem kleineren Parameter-Satz anbietet, die auch auf heimischen Computern einsetzbar sind - und sogar SBCs: Ein Video, dass den Einsatz eines 14 Milliarden Parameter DeepSeek-R1 Modells auf einem Raspberry Pi 5 zeigt, erreichte innerhalb von 48 Stunden bereits über 1,7 Millionen Aufrufe.

KI-Community arbeitet an „echten" quelloffenen DeepSeek-Klonen

Allerdings: Dass DeepSeek-R1 und DeepSeek-V3 in der Anpassung und Anwendung Open Source sind heißt nicht, dass sich das Unternehmen bei der Entwicklung seiner LLMs in die Karten schauen lässt. Obwohl DeepSeek „offen“ ist, bleiben einige Details verborgen. So legt DeepSeek weder die Datensätze noch den Trainingscode offen, der zum Trainieren seiner Modelle verwendet wird. Das Offenlegen des Quellcodes gilt eigentlich als ein Gemeinschaftsstandard in Open-Source-Communities. Und die Verschleierung der Basisdatensätze veranlasst sowohl den Meta-Konzern als auch OpenAI zu der Vermutung, das chinesische Startup habe sich hier bei den bereits etablierten KI-Modellen bedient - und auf diesem Weg eine Menge Forschungsaufwand und Geld beim Basistraining seiner LLMs eingespart.

Fairerweise muss man sagen: Die meisten „offenen“ LLMs stellen nur die Modellgewichte zur Verfügung, die zur Ausführung oder Feinabstimmung des Modells erforderlich sind. Der vollständige Trainingsdatensatz sowie der für das Training verwendete Code bleiben verborgen. Auch Meta war wiederholt in den sozialen Medien für diese Praxis kritisiert und der „echte" Status eines Open-Source-Modells deswegen angezweifelt worden - trotz der freien Verwendbarkeit.

Die Modelle von DeepSeek sind ähnlich undurchsichtig. Doch die Open-Source-KI-Community arbeitet bereits daran, den Schleier zu lüften. Auf HuggingFace, dem größten Online-Repositorium für Open-Source-KI-Modelle, wurde am 28. Januar das Projekt Open-R1angekündigt: Der Versuch, eine vollständige und „echte" quelloffene Version von DeepSeek-R1 zu entwickeln. „Die Veröffentlichung von DeepSeek-R1 ist ein unglaublicher Segen für die Gemeinschaft, aber es wurde nicht alles veröffentlicht - obwohl die Modellgewichte offen sind, sind die Datensätze und der Code zum Trainieren des Modells nicht offen", schreibt das Huggingface-Team in seinem das Thema betreffenden Blogeintrag. „Das Ziel von Open-R1 ist es, diese letzten fehlenden Teile zu erstellen, damit die gesamte Forschungs- und Industriegemeinschaft ähnliche oder bessere Modelle mit diesen Rezepten und Datensätzen erstellen kann." Da dies vollkommen offen geschehe, könne jeder in der KI-Gemeinschaft dazu beitragen - und alle von einem leistungsstarken, vollkommen offenen Projekt profitieren. Ferner würde das Projekt damit auch die offene Frage öffentlich belegen oder widerlegen können, ob der Reinforcement-Learning-Ansatz von DeekSeepk wirklich so effizient sein kann wie vom chinesischen Startup behauptet. Dazu wolle man in drei Schritten vorgehen:

  • Replizieren der R1-Distill-Modelle durch Destillieren eines qualitativ hochwertigen schlussfolgernden Datensatzes aus DeepSeek-R1.
  • Replizieren der reinen RL-Pipeline, die DeepSeek zur Erstellung von R1-Zero verwendet hat. Dies umfasst die Zusammenstellung neuer, umfangreicher Datensätze für Mathematik, logisches Denken und Code.
  • Zeigen, dass man vom Basismodell aus über ein mehrstufiges Training von einem SFT-„Kaltstart" aus zu effizientem Reinforcement Learning übergehen kann.

Auch wenn weiterhin Fragen offen bleiben steht es außer Frage, dass DeepSeek alleine mit seinem Auftauchen auf dem Markt für Aufhorchen gesorgt hat. Einiges scheint darauf hinzudeuten, dass die chinesischen Entwickler mit ihrem günstigen Preis in erster Linie daran interessiert sind, so schnell wie möglich große Marktanteile zu erringen. Eine Disruption sind DeepSeek-V3 und DeepSeek-R1 damit auf jeden Fall bereits. Ob es sich hierbei aber eine technologische oder „nur" eine preisliche Revolution anbahnt, das werden die nächsten Monate zeigen.(sg)

(ID:50305571)