Sprachmodelle Kimi K2 Thinking: Erneut ein LLM-Knüller aus China

Von Henrik Bork 3 min Lesedauer

Anbieter zum Thema

Wenn Open-Source-Modelle aus China billiger und zugleich besser sein sollten als geschlossene Modelle, dann hätten Sam Altman und sein OpenAI oder auch Anthropic ein Problem. Das ist der Grund, warum die Veröffentlichung von „Kimi K2 Thinking“ Anfang November weltweit für Schlagzeilen sorgt.

Kimi K2 Thinking überflügelt nach Angaben von Moonshot AI auf Basis von Benchmark-Tests in den Disziplinen Agentic Reasoning und Agentic Search eingespielte Player wie GPT-5, liegt bei den Coding-Möglichkeiten allerdings noch zurück.(Bild:  Moonshot AI)
Kimi K2 Thinking überflügelt nach Angaben von Moonshot AI auf Basis von Benchmark-Tests in den Disziplinen Agentic Reasoning und Agentic Search eingespielte Player wie GPT-5, liegt bei den Coding-Möglichkeiten allerdings noch zurück.
(Bild: Moonshot AI)

„Unternehmen, die weder KI noch China in ihre Strategie einbeziehen, könnten bis 2030 unter Wachstumsdruck geraten“, schreibt die Beratungsagentur McKinsey in einem aktuellen Bericht. Die schnelle Folge, in der chinesische KI-Start-ups beeindruckende Sprachmodelle herausbringen, lässt den Zeitrahmen dieser Prognose schon kurz nach ihrem Erscheinen fast konservativ erscheinen.

„Ein neues Reasoning-Modell eines chinesischen KI-Start-ups, dessen Leistung in mehreren Kennzahlen über OpenAIs GPT-5 und Anthropics Claude Sonnet 4.5 liegt, hat eine neue Debatte über einen möglichen zweiten DeepSeek-Moment und über die Zukunft der amerikanischen Führungsrolle bei KI ausgelöst“, schreibt die South China Morning Post in Hongkong über das jüngste Produkt des chinesischen Start-ups MoonShoot AI.

Auf dem GitHub-Blog behauptet MoonShoot AI, dass sein neues Modell 44,9 Prozent aller Fragen in dem Benchmark-Test „Humanity’s Last Exam“ beantworten konnte. Das sei besser als die 41,7 Prozent von ChatGPT-5, schreibt das Start-up, zu dessen Investoren unter anderem die chinesischen Internet- und KI-Unternehmen Alibaba und Tencent zählen.

Agentische Fähigkeiten

Die Experten des amerikanischen Unternehmens Hugging Face, das für seine Open-Source-Bibliothek „Transformers“ bekannt ist, verweisen in einem Kommentar darauf, dass viele der SOTA-Ergebnisse von Kimi K2 Thinking in einem speziellen „Heavy“-Modus erzielt worden seien. In diesem werden bis zu acht Inferenzläufe parallel ausgeführt und die Ergebnisse dann später zusammengeführt. Das relativiert die Angaben von MoonShoot AI ein wenig, diese Methode ist allerdings bei Wettbewerben von Sprachmodellen nicht ungewöhnlich.

In ersten Bewertungen durch die Fachpresse werden insbesondere die agentischen Fähigkeiten des neuen generativen KI-Modells aus China gelobt. Es könne besonders gut wie ein persönlicher Agent arbeiten, indem es eine ganze Reihe verschiedener Tools kombiniert, wenn es Denkaufgaben in mehreren Schritten lösen muss, heißt es.

„Kimi K2 Thinking kann bis zu 200 bis 300 aufeinanderfolgende Tool-Aufrufe ohne menschliches Eingreifen ausführen und über Hunderte Schritte hinweg schlüssig argumentieren, um komplexe Probleme zu lösen“, schreiben seine Erfinder bei MoonShoot AI auf GitHub selbst zu diesem Thema.

Benchmark-König?

Das neue LLM aus China soll auch bei anderen Benchmarks besser abgeschnitten haben, als vergleichbare US-Modelle, darunter bei „BrowseComb“ für Internet-Recherchen und auch bei „Seal-0“, das mit seinen 111 Fragen die Faktentreue und Argumentationsfähigkeiten von suchunterstützten großen Sprachmodellen auf die Probe stellt.

Bei anderen Aufgaben, etwa beim Programmieren von Software, liegt Kimi K2 Thinking offenbar noch leicht hinter der US-amerikanischen Konkurrenz zurück. Wichtiger als solche Vergleiche – und wer die Nase ein Stück weiter vorn hat oder nicht – sind aber wohl zwei andere Dinge im Zusammenhang mit Kimi. Ähnlich wie DeepSeek wurde das Modell offenbar auch sehr kostengünstig trainiert. Dazu ist das Modell unbestritten ein weiterer Erfolg von „Open-Source“-LLMs gegenüber den proprietären Modellen.

„Das neue Kimi-KI-Modell zu trainieren hat 4,6 Millionen US-Dollar gekostet, sagen Quellen, die mit der Sache vertraut sind“, hat der amerikanische Fernsehsender CNBC gemeldet. Seitdem schießt die Zahl der Downloads von Kimi K2 Thinking weltweit in die Höhe. Erstmals hätten jetzt die Downloads chinesischer Open-Source-Modelle die vergleichbarer amerikanischer Open-Source-Modelle zahlenmäßig überholt, schreibt a16z.

Erzwungene Effizienz

Die Debatte über Kimi K2 Thinking erinnert insgesamt sehr stark an die über DeepSeek, dessen Architektur das Kimi-Team offenbar auch sehr viel zu verdanken hat. Beide chinesischen Modelle sind unter dem Druck entstanden, wegen der amerikanischen Halbleiter-Boykotte gegenüber China besonders effizient mit existierenden Ressourcen zu arbeiten.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Beide Modelle sind für Nutzer weltweit in der Folge vor allem deshalb interessant, weil sie vielleicht nicht überall die absolut Besten sind, aber eben oft „gut genug“. Dabei sind sie obendrein bezahlbar und wegen ihrer Open-Source-Architektur in vielen Unternehmen in existierende Workflows integrierbar. (sb)

(ID:50630044)