Edge-KI mit NPUs und Modellkompression optimieren

Embedded KI mit Echtzeit-Anwendungen Edge-KI mit NPUs und Modellkompression optimieren

12.01.2026 Von Christoph Stockhammer* 5 min Lesedauer

Anbieter zum Thema

Mathworks Deutschland

MicroConsult Academy GmbH

syslogic-logotype-alt-navy-mint (Syslogic.ai)

Syslogic GmbH

IBR Leiterplatten GmbH & Co. KG

Durch die geschickte Kombination von NPUs und KI-Modellgestaltung mit strategischen Kompressionstechniken lassen sich eingebettete Geräte in effiziente, leistungsstarke Real-Time-Entscheidungsträger verwandeln – bereit, in Echtzeit zu handeln.

Eine NPU ist eine wirtschaftliche, stromsparende Lösung, die für effiziente KI-Inferenz und neuronale Netzberechnungen in eingebetteten Systemen entwickelt wurde.(Bild: Yuichiro Chino / MathWorks) — Eine NPU ist eine wirtschaftliche, stromsparende Lösung, die für effiziente KI-Inferenz und neuronale Netzberechnungen in eingebetteten Systemen entwickelt wurde.
(Bild: Yuichiro Chino / MathWorks)

Immer mehr Geräte denken mit. Vom Smartphone über vernetzte Sensoren bis hin zum autonomen Fahren rückt Edge-KI immer stärker in den Fokus. Edge-KI bezeichnet Künstliche Intelligenz, die direkt auf dem Gerät Entscheidungen trifft, ohne den Umweg über die Cloud. Leistungsstarke Modelle brauchen jedoch viel Rechenleistung, Speicher und Energieressourcen. Gleichzeitig wächst der Bedarf an Echtzeit- oder nahezu Echtzeit-Entscheidungen, was die Nachfrage nach leistungsfähigen Edge-Lösungen weiter antreibt. Genau hier kommen Neural Processing Units (NPUs) ins Spiel: Sie sind speziell dafür entwickelt, komplexe KI-Modelle mit niedriger Latenz und geringem Energieverbrauch auszuführen und eröffnen damit neue Möglichkeiten für die Praxis. Eine der größten Herausforderungen bleibt dennoch die Minimierung der Inferenzzeit also der Zeitspanne, die ein Modell benötigt, um eine Vorhersage zu treffen. Gerade um in der Motorsteuerung muss die Inferenzzeit oft unter 10 Millisekunden liegen, um Systemstabilität und Reaktionsfähigkeit zu gewährleisten und mechanische Belastungen oder Schäden zu vermeiden.

NPUs sind speziell für KI-Inferenz und Berechnungen in neuronalen Netzen konzipiert. Damit eignen sie sich besonders für eingebettete Systeme, in denen Rechenleistung begrenzt und Energieeffizienz entscheidend ist. Im Gegensatz zu CPUs als Allzweckprozessoren oder GPUs, die zwar leistungsstark, aber energiehungrig sind, sind NPUs auf die effiziente Berechnung von Matrixoperationen optimiert, dem Kern neuronaler Netze. Zwar können auch GPUs für KI-Inferenz eingesetzt werden, doch NPUs punkten mit deutlich geringerem Energieverbrauch und geringeren Kosten.

Aus wirtschaftlicher Sicht stellen NPUs eine attraktive Alternative zu Mikrocontrollern (MCUs), GPUs oder FPGAs für KI-Aufgaben dar. Zwar sind Chips mit integrierten NPUs in der Anschaffung teurer als einfache Mikrocontroller, ihr Mehrwert liegt jedoch in der überlegenen Energieeffizienz und KI-Leistung. Diese Eigenschaften senken langfristig die Betriebskosten, verlängern Batterielaufzeiten und bieten neue Einsatzmöglichkeiten für eingebettete Systeme. Zudem ermöglichen NPUs Echtzeit-KI-Verarbeitung ohne auf kostspielige und stromhungrige Alternativen wie GPUs oder FPGAs zurückgreifen zu müssen.

Schlanke KI-Modelle für die Edge: Projektion und Quantisierung im Einsatz

Gleichzeitig stoßen NPUs jedoch an Grenzen: Speicher und Energie sind begrenzt. Deshalb ist Modellkompression entscheidend, um die Größe und Komplexität von Modellen zu reduzieren und so Echtzeitleistung zu ermöglichen.

Modellkompressionstechniken sind entscheidend, um große KI-Modelle für den Einsatz an der Edge bereitzustellen. Sie reduzieren die Größe und Komplexität, verbessern die Inferenzgeschwindigkeit und senken den Energieverbrauch. Gleichzeitig kann jedoch eine zu starke Kompression die Vorhersagequalität beeinträchtigen. Daher müssen Ingenieuresorgfältig abwägen, wie viel Genauigkeit sie für die Hardwareanforderungen opfern können.

Zwei sich ergänzende Kompressionstechniken haben sich dabei besonders bewährt: Projektion und Quantisierung. Durch die Kombination dieser beiden Methoden können KI-Modelle gezielt für NPUs optimiert werden. Die Projektion reduziert die Modellgröße, indem sie redundante Parameter entfernt, während die Quantisierung das Modell weiter komprimiert, indem sie verbleibende Parameter in (typischerweise ganzzahlige) Datentypen mit weniger Speicherbedarf umwandelt. Gemeinsam sorgen beide Vorgehensweisen für eine Kompression auf struktureller und Datentypebene, was die Effizienz steigert, ohne die Genauigkeit wesentlich zu verringern.

Die Projektion neuronaler Netze ist eine strukturelle Kompressionstechnik, die in der MATLAB Deep Learning Toolbox verfügbar ist. Sie reduziert die Anzahl der lernbaren Parameter in einem Modell, indem die Gewichtsmatrizen der Schichten auf niedrigdimensionale Unterräume projiziert werden.

Basierend auf der Hauptkomponentenanalyse (PCA) werden die wichtigsten Richtungen der neuronalen Aktivierungen identifiziert und redundante Parameter entfernt. So sinken Speicher- und Rechenaufwand, während die Modellgenauigkeit weitgehend erhalten bleibt.

Auf die Projektion folgt die Quantisierung: Sie ist eine Kompressionstechnik auf Datentyp-Ebene, die den Speicherbedarf und die Rechenkomplexität von KI-Modellen reduziert, indem sie lernbare Parameter (Gewichte und Biases) von hochpräzisen Gleitkommawerten in niedrigpräzise Ganzzahltypen umwandelt. Dies senkt den Speicherverbrauch und beschleunigt die Inferenz eines Modells, besonders auf NPUs. Die Quantisierung führt zwar zu einem gewissen Verlust an numerischer Präzision. Aber durch die Kalibrierung des Modells mit repräsentativen Eingabedaten kann die Genauigkeit in der Regel innerhalb akzeptabler Grenzen für Echtzeitanwendungen gehalten werden.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Implementierung der Projektion- und Quantisierungstechniken bei STMicroelectronics

Ein praktisches Beispiel liefert STMicroelectronics, ein globaler Hersteller von Halbleitern und Mikroelektronik, der Chips für Autos, Smartphones, Industrie und IoT-Geräte entwickelt. Dabei erstellten Ingenieuren einen Workflow mit MATLAB® und Simulink®, um Deep-Learning-Modelle auf STM32-Mikrocontrollern bereitzustellen. Ingenieure begannen mit dem Entwurf und Training des Modells, gefolgt von Hyperparameter-Optimierung und Wissensdestillation, um die Modellkomplexität zu reduzieren.

Im nächsten Schritt setzten sie Projektion ein, um das Modell strukturell zu komprimieren und überflüssige Parameter zu entfernen. Anschließend folgte die Quantisierung, bei der Gewichte und Aktivierungen in 8-Bit-Ganzzahlen konvertiert wurden. Dadurch sank der Speicherbedarf deutlich, während die Ausführungsgeschwindigkeit stieg. Dieser zweistufige Kompressionsansatz ermöglicht die Bereitstellung von Deep-Learning-Modellen auf ressourcenbeschränkten NPUs und MCUs, ohne die Echtzeitleistung zu beeinträchtigen.

Best Practices bei der Bereitstellung von KI-Modellen auf NPUs

Vergleich von Genauigkeit, Modellgröße und Inferenzgeschwindigkeit eines rekurrenten neuronalen Netzes mit LSTM-Schicht zur Modellierung des Ladezustands einer Batterie – vor und nach der Projektion mit Feinabstimmung.(Bild: MathWorks) — Vergleich von Genauigkeit, Modellgröße und Inferenzgeschwindigkeit eines rekurrenten neuronalen Netzes mit LSTM-Schicht zur Modellierung des Ladezustands einer Batterie – vor und nach der Projektion mit Feinabstimmung.
(Bild: MathWorks)

Modellkompressionstechniken wie Projektion und Quantisierung können die Leistung und Einsatzfähigkeit von KI-Modellen auf NPUs erheblich verbessern. Da Kompression jedoch die Genauigkeit beeinflussen kann, ist iteratives Testen – sowohl in der Simulation als auch mit Processor-in-the-Loop-Validierung – entscheidend, um sicherzustellen, dass die Modelle funktionale und ressourcenbezogene Anforderungen erfüllen.

Frühes und häufiges Testen ermöglicht es Ingenieuren, Probleme frühzeitig zu erkennen und zu beheben, wodurch das Risiko reduziert wird, in späten Entwicklungsphasen nacharbeiten zu müssen. Das unterstützt eine reibungslose Bereitstellung in eingebetteten Systemen.

Ein einheitliches Ökosystem kann zudem viele Herausforderungen bei der Bereitstellung von KI-Modellen abfangen, indem es die Integration vereinfacht, die Entwicklung beschleunigt und umfassende Tests während des gesamten Prozesses unterstützt. Dies ist besonders wertvoll in der heutigen fragmentierten Softwarelandschaft, in der Ingenieure häufig unterschiedliche Codebasen in ihre Simulations-Workflows oder größere Systemumgebungen integrieren müssen. Die Integration von NPUs erhöht die Komplexität der Toolchain zusätzlich – ein weiterer Grund für die Notwendigkeit eines einheitlichen Ökosystems.

Mit der MATLAB® Deep Learning Toolbox können Ingenieure komprimierte KI-Modelle entwerfen, simulieren und optimieren. Das erlaubt ihnen, die anwendungsspezifischen Anforderungen an Geschwindigkeit, Genauigkeit und Effizienz auf NPU-Hardware zu erfüllen. Gleichzeitig liegt die Zukunft der eingebetteten KI in leistungsfähigen, an der Edge optimierten Hardwarearchitekturen, die komplexe technische Systeme steuern. Erfolg hängt dabei von der richtigen Balance zwischen Modellkompression, frühzeitigen Hardwaretests und anpassungsfähigen Systemen ab. (sg)

Bei der zweiten Generation der Ensemble-MCUs von Alif Semiconductor verbindet ein breiterer Bus alle internen Prozessorblöcke und den Speicher. Dies hilft, einige der besonderen Ansprüche bei der Implementierung Generatover KI in Embedded-Endgeräten zu adressieren. (Bild: Alif Semiconductor)

Viacheslav Gromov: „Koppelt man smarte Geräte zumindest teilweise vom Internet ab und nutzt Embedded-KI zur Datenverarbeitung, so führt dies zu einer effizienten, stabilen und ressourcenschonenden Lösung.“ (Bild: AITAD/dietzefotografie)

* Christoph Stockhammer ist Principal Application Engineer bei MathWorks

(ID:50674087)