Auf dem Mikrocontrolller-Markt wird künftig die effiziente Integration von NPUs (Neural Processing Unit) in enger Kopplung mit herkömmlichen MCU-Features und Funktionen entscheidend sein. Die von Herstellern für diese neue Art hybrider CPU/NPU-Bauteile gewählte Architektur hat direkte Auswirkungen auf die Produktentwicklungen der OEM, ihre Leistung und Reaktionszeiten, ihren Energieverbrauch und die Produktivität der Entwickler. Worauf kommt es hier an?
Alif Ensemble-Application-Kit, AK-E7-AIML: Bei dem Einsatz von Machine Learning in Embedded-Systemen am Endpoint kommt es auf Faktoren wie robuste Sicherheit, die korrekte Mischung von Peripherie und Schnittstellen oder drahtlose Konnektivität an. Dies wirkt sich auf die zugrunde liegende Architektur der angedachten Mikrocontroller aus.
(Bild: Alif Semiconductor)
Es wird immer einen Markt für herkömmliche Mikrocontroller geben, die Embedded-Steuerfunktionen ohne native Künstliche Intelligenz ausführen. Doch der rasch wachsende Bedarf für KI-Funktionen am Endpoint bestimmt zunehmend die Spezifikationen von MCU zum Einsatz in neuen Produkten, wie in Bild 1 gezeigt.
Bild 1: Wesentliche Komponenten eines KI-fähigen Mikrocontrollers.
(Bild: Alif Semiconductor)
Endkunden erwarten in den fertiggestellten Systemen flüssige und sinnvolle Funktionen ohne spürbare Verzögerungen zum erschwinglichen Preis in Produkten wie Wearables, Hearables, Fitness- und Health-Monitoren, intelligenten Kameras und Computerspielen mit weniger Abhängigkeit von der Cloud erwartet. Entwickler, die eine KI-fähige MCU auswählen sollen, verlassen sich natürlich auf Leistungs-Benchmarks und andere technische Daten. Dabei hilft ihnen aber auch ein Blick unter die Motorhaube, um zu sehen, wie die MCU in die vertraute Struktur des Embedded-Controllers integriert worden ist.
Die MCU-Schlacht verlagert sich auf neue Gebiete
Diskussionen über die konkurrierenden Implementierungen neuraler Netzwerkfähigkeiten in Mikrocontrollen werden einfach deshalb noch nicht öffentlich geführt, weil so wenige Hersteller den Bedarf des Markts für effektive Fähigkeiten beim Maschinenlernen (ML) in IoT-Geräten am Endpoint sinnvoll angegangen sind. Die Giganten auf dem MCU-Markt haben sich im Großen und Ganzen damit zufrieden gegeben, einfach ihre bestehenden Portfolios zu erweitern, indem sie ML-Features zu ihren Software-Entwicklungskits hinzugefügt und die bisherige Silizium-IP weitgehend beibehalten haben. Diese IP basiert in nahezu allen Fällen auf älteren Generationen der Arm Cortex-M CPU-Architektur zur Ausführung der ML-Aufgaben, während in seltenen Fällen ein proprietärer Coprozessor für neurales Networking eingesetzt wird. Dazu werden noch herkömmliche interne Speicher-Implementierungen verwendet, die unterdimensioniert sind, zu stark beansprucht werden und nicht eng genug an das neurale Processing angebunden sind, um ML-Inferenz mit der gewünschten Rate und einem angemessenen Energieverbrauch zu übernehmen. Wenn dann noch der Zwang hinzukommt, Speicher außerhalb des Chips zu verwenden, steigen die Systemkosten und der Energieverbrauch, während die Sicherheit leidet.
Dieser Zustand lässt sich nicht aufrechterhalten. Die Erfahrung in der Praxis zeigt den Mikrocontroller-Anwendern, dass sich Operationen zum neuralen Networking nur schlecht auf die steuerungsorientierten RISC-CPU in herkömmlichen MCU übertragen lassen. Um innerhalb des Energiebudgets zu bleiben und die Leistungsanforderungen zu erfüllen, braucht ein Mikrocontroller für Anwendungen am Endpoint eine NPU-Hardware, die für MAC-Operationen (Multiply Accumulate) - die Hauptaufgaben neuraler Netzwerkanwendungen - optimiert ist, und deren Speicher mit extrem hoher Bandbreite angebunden ist.
Bild 2: Die Benchmark-Tests zeigen die überlegene Leistung und den Leistungsschub beim Einsatz einer NPU zur Beschleunigung verbreiteter ML-Workloads. Erläuterungen zu den Fußnoten: 1) KWS: Aus dem ARM MicroNets Paper. Quantisiertes int8, trainiert mit dem „Google Speech Commands“-Datensatz. Footprint des Modells: 154 KB MRAM, 28 KB SRAM 2) Objekterkennung: 192x192 Auflösung, Graustufen und Farbe. Quantisiertes int8, trainiert mit dem „WIDER FACE“-Datensatz. Footprint des Modells: 431KB MRAM, 433KB SRAM 3) Bildklassifizierung: 224x224 24-Bit Auflösung % Farbe. Quantisiertes int8, trainiert mit dem „ImageNet“-Datensatz. Footprint des Modells: 3.552 KB MRAM, 1,47 KB SRAM 4) ASR: Tiny Wav2letter Pruned, integriert in ARM ML Demo-App, auf ASR Anwendungsfall. MRAM = 2346,06 KB (weitgehend Vela-optimiert aus 3903,43 KB), SRAM = 1197,20KB
(Bild: Alif Semiconductor)
Die Tabelle in Bild 2 verdeutlicht dies. Die Ensemble MCU-Familie von Alif Semiconductor arbeitet mit dem aktuellen Cortex-M55 CPU-Kern mit seiner Helium-Erweiterung zur SIMD-Vektorverarbeitung (Single Instruction-Multiple Data), zusammen mit einem Ethos-M55 NPU-Coprozessor. Tatsächlich sind viele Ensemble MCUs mit zwei Paaren von Cortex-M55 CPU und Ethos-U55 NPU ausgestattet, doch dazu später mehr. Hier sind die Leistungsdaten einer einzelnen ML-Inferenz für vier unterschiedlich trainierte ML-Modelle zu sehen , ausgeführt auf einer Ensemble MCU für Schlüsselworterkennung, Objekterkennung, Bildklassifizierung und Spracherkennung. Von links nach rechts ist der Bereich, in dem der ML-Modell-Workload mit der gesamten verfügbaren Hardwarebeschleunigung - der Ethos-U55 NPU und der Cortex-M55 CPU unter Verwendung ihres SIMD-Vektorbefehlssatzes - ausgeführt wird, grün markiert.
Der gelbe Bereich zeigt die Verhältnisse, nachdem die Ethos-U55 NPU entfernt wurde, der blaue Bereich die Leistung der CPU allein, ohne weitere Hilfe. Der blaue Bereich zeigt die Ergebnisse nur mit der CPU ohne weitere Unterstützung durch Hardware. Schließlich steht rechts die Leistungssteigerung. Der grüne Bereich zeigt den Leistungsschub durch die gesamte verfügbare Beschleunigung im Vergleich zur CPU mit SIMD, der gelbe Bereich die Steigerung durch die CPU mit SIMD im Vergleich zu ohne SIMD, und schließlich der blaue Bereich die Wirkung der vollen Beschleunigung gegenüber dem Betrieb ohne Beschleunigung.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Was sind die Schlussfolgerungen aus diesen Vergleichen?
Blaue Bereiche: Eine Embedded-CPU allein hat Mühe mit sinnvollen ML-Aufgaben, da Inferenzen aus dem hochgradig parallelen ML-Netzwerk seriell gelöst werden müssen, was übermäßig viel Zeit und sehr viel Energie verbraucht. Die Cortex-M55 gehört zu den besten Embedded-CPU-Architekturen und liefert bei ML-Workloads bereits 5x bessere Werte als frühere Generationen des Cortex-M CPU Kerns. Doch, so gut wie der Cortex-M55 bereits sein mag, sieht man ganz rechts im blauen Bereich den enormen Leistungsschub, der im Vergleich zur CPU allein zwei Größenordnungen erreicht oder sogar übertrifft. Wenn man dazu berücksichtigt, dass der Cortex-M55 fünfmal mehr Leistung bietet als andere verbreitete Cortex-M-Architekturen, kann man diese Zunahme allgemein mit 5 multiplizieren. Bei der Spracherkennung ist das um 800 mal schneller und verbraucht 400 mal weniger Energie pro Inferenz.
Gelbe Bereiche. Eine Erweiterung der MCU um SIMD-basierte Vektor-Rechenfunktionen bewirkt bei Leistung und Energieverbrauch eine erhebliche Verbesserung gegenüber der CPU allein, denn es wird mehr Parallelverarbeitung möglich. Die Helium M-Profil Vektor-Erweiterung (MVE) ist bei der Cortex-M55 Arm8.1-M-CPU-Architektur eingebracht worden.
Grüne Bereiche. Hier zeigt ein eigener NPU Coprozessor sein ganzes Potenzial. Die ML-Workload wird vom Compiler auf die CPU und die NPU verteilt, wobei je nach ML-Modell typischerweise 95% oder mehr der ML-Workload bei der NPU landen. Die NPU erzeugt Inferenzen enorm schnell und effizient, indem sie MAC-Operationen in der Hardware weitestgehend parallel ausführt. Ein wichtiger weiterer Vorteil ist, dass die CPU in den Sleep-Modus versetzt werden kann, um Energie zu sparen, oder für andere Aufgaben eingesetzt werden kann.
Mit der Zeit werden alle MCU zum Einsatz in ML-Anwendungen am Endpoint zu hybriden CPU/NPU-Komponenten werden. Das folgt ebenso unweigerlich wie andere grundlegende Trends in der MCU-Welt der letzten Jahrzehnte, wie beispielsweise die Umstellung auf FLASH-basierte MCU und die Integration der USB-Konnektivität in fast allen MCU.
Neue Optionen für Entwickler beim Evaluieren von Mikrocontroller-Architekturen
Die Frage ist also: Welche Auswirkungen hat die Auswahl der Architektur der MCU-Hersteller zur Integration der Fähigkeiten von neuralen Netzwerken für die Entwicklerteams der OEM?
Auf diese drei wichtigsten Aspekte der hybriden CPU/NPU-Architektur sollten OEM-Entwickler nach unserer Erfahrung achten, wenn sie eine MCU für Endpoint-ML-Anwendungen auswählen.
1. Eine schnelle ML-Inferenz mit niedrigem Energieverbrauch hängt vom Speichertyp und der Topologie ab
Die OEM werden in vielen Fällen ML am Endpoint implementieren, da die Anwendung eine Reaktion erfordert, die der Anwender als verzögerungsfrei empfindet. Außerdem ist die Mehrzahl dieser Produkte tragbar und drahtlos angebunden, weswegen eine lange Betriebsdauer aus kleinen Batterien wichtig ist.
Wir haben in Bild 2 gesehen, dass eine verbesserte Verarbeitungsfähigkeit entscheidend für hohe Leistung und Energieeffizienz ist, doch ohne optimiertes Speichersystem im Hintergrund werden die Ergebnisse nicht den Erwartungen entsprechen.
Bild 3 zeigt eine vereinfachte Darstellung der Speichertopologie der Ensemble MCU. Die obere Hälfte ist der Echtzeitteil mit sehr schnellem eng angebundenen Speicher (engl. Tightly Coupled Memory, TCM), der mit den CPU- und NPU-Kernen verbunden ist. Für schnelle Inferenzen mit geringer Latenz muss dieses TCM-SRAM ausreichend groß sein, um die Tensor-Arena des ML-Modells aufzunehmen.
Bild 3: Die interne Speichertopologie der Ensemble MCU.
(Bild: Alif Semiconductor)
Die untere Hälfte der Grafik zeigt anderen Speicher, der im System verteilt und über einen gemeinsamen Hochgeschwindigkeitsbus angebunden ist. Dabei ist viel SRAM erforderlich, um die Sensordaten, beispielsweise die Daten von Kamera und Mikrofonen, aufzunehmen. Außerdem enthält ein großer nicht-flüchtiger Speicher das ML-Modell selbst und den Anwendungscode. Wenn ein großer On-Chip-Speicher in dieser Weise verteilt wird, um konkurrierenden Datenverkehr auf dem Bus zu minimieren, läuft der gleichzeitige Datenaustausch vom und zum Speicher reibungslos ab. Es entstehen keine Engpässe, die Speicherzugriffszeiten werden minimiert und der Energiebedarf lässt sich aus einer kleinen Batterie decken.
Behalten Sie hierbei im Auge, dass bei Embedded-ML-Systemen ein großer Teil der Energie, die beim Erzeugen einer Inferenz verbraucht wird, durch das Bewegen von Daten entsteht. Bei System mit unterdimensioniertem Speicher und einer ungünstigen Speichertopologie kann mehr Energie zum Hin- und Herbewegen der Daten verbraucht werden, als für die Verarbeitungsfunktionen von CPU und NPU. Außerdem kann der Energiebedarf um Größenordnungen zunehmen, wenn Daten oder Code auf einen externen Speicher verlagert werden müssen. Hinzu kommt, dass sensitive Daten und die IP des ML-Modells möglichen Sicherheitsrisiken ausgesetzt werden.
2. Maximieren der Batterielaufzeit
Die Konzentration lokaler ML-Fähigkeiten am Endpoint wird in nächster Zukunft explosionsartig zunehmen, während diese Produkte gleichzeitig immer kleiner werden. Das gilt besonders für Wearables. Intelligente Brillen, Fitness-Ringe und Hörhilfen sind Beispiele für KI-fähige Wearables, bei denen eine dramatisch steigende Nachfrage erwartet wird. Sie alle müssen aus einer kleineren Batterie versorgt werden.
Alif verfolgt verschiedene Ansätze, um die Batterielaufzeit zu verlängern. Zwei Beispiele hierfür sind:
1). Aufteilen des Systems, sodass ein Teil des Chips mit geringem Energiebedarf ständig eingeschaltet sein kann. Dieser ständig eingeschaltete Teil bietet robuste Rechenleistung und kann so selektiv einen Teil des Chips mit sehr viel höherer Leistung wecken, um größere Workloads auszuführen, und anschließend wieder in den Sleep-Modus versetzen
2. Das System zum Energiemanagement schaltet dynamisch nur die jeweils benötigten Teile des Chips ein und anschließend wieder aus.
Viele Ensemble MCU haben zwei Paare von Cortex-M55+Ethos-U55 Kernen, wie in Bild 4 gezeigt:
Einen im Bereich des Chips mit hoher Effizienz, der aus Transistoren mit niedrigem Leckstrom aufgebaut ist und ständig bei bis zu 160 MHz in Betrieb sein kann
Das andere Paar im Bereich mit hoher Leistung arbeitet mit bis zu 400 MHz.
Bild 4: Blockschaltbild der Ensemble E3 MCU mit den Bereichen des Chips für hohe Effizienz und für hohe Leistung.
(Bild: Alif Semiconductor)
Um sich die Vorteile dieser Anordnung vor Augen zu führen, stellen Sie sich eine intelligente Kamera zur Erkennung der Anwesenheit vor, die einen Raum ständig mit niedriger Bildrate über das Paar mit hoher Effizienz scannt, um ein gültiges Ereignis (z. B. eine stürzende Person oder eine bestimmte Geste) zu erkennen, das den Hochleistungsabschnitt aufweckt, um eine oder mehrere Personen zu identifizieren, blockierte Ausgänge zu erkennen, Hilfe anzufordern usw. In diesem Fall kann die Kamera intelligenter überwachen, weniger Fehlalarme erzeugen und mit einer Batterieladung länger arbeiten. In ähnlicher Weise können diese beiden Paare aus CPU- und NPU-Kernen zur Klassifizierung von Geräuschen, Stimmen, Wörtern, OCR-Text, Vibrationen und Sensordaten in vielen verschiedenen Anwendungen eingesetzt werden.
Alle Ensemble MCU setzen auch Alifs aiPM-Technologie (autonomous intelligent Power Management) ein, um in Echtzeit bis zu 12 individuelle Leistungsbereiche auf dem Chip so zu steuern, dass sie zum gerade ausgeführten Anwendungsfall passen. Es werden nur Bereiche mit Spannung versorgt, die gerade aktiv Aufgaben ausführen – indem z. B. bestimmte Prozessorkerne, Speicher oder Peripherie aktiviert werden – während die übrigen Bereiche ausgeschaltet bleiben. Dies ist für den Softwareentwickler transparent.
3. Höhere Produktivität der Entwickler
Für viele Entwicklungsingenieure, die mit Embedded-Echtzeitsteuerungen vertraut sind, sind KI-Systeme ein unbekanntes Gebiet, das einen neuen Ansatz bei der Softwareentwicklung verlangt. Diese mangelnde Vertrautheit muss sich jedoch nicht auf die Entwicklungsumgebung selbst auswirken.
Die Mikrocontroller-Welt setzt zur Embedded-Steuerung weitgehend die Arm Cortex-M-Architektur ein. Nun kommen die Arm Ethos NPU zu diesem robusten Ökosystem hinzu und bieten alle vertrauten Vorteile. Im Bereich der Embedded-NPU-Engines ist eine große Auswahl anderer Produkte von IP-Anbietern verfügbar, und einige bekannte Mikrocontroller-Hersteller schaffen ihre eigene proprietäre NPU-IP.
Alle diese Optionen belassen die NPU jedoch außerhalb des Arm-Ökosystems, in dem die Embedded-Steuerfunktionen entwickelt werden. Vor diesem Hintergrund wird die Ethos NPU zu einer besseren Wahl für viele Anwender, da mit ihr KI-Funktionen in derselben vertrauten MCU-Umgebung wie die Steuerfunktionen entwickelt werden können.
In einer Ensemble MCU arbeitet die Ethos NPU im Wesentlichen als intelligente Peripherie einer Cortex-M55 CPU, an die sie eng angebunden ist, wobei TCM-Ressourcen geteilt werden, die vom Cortex-Kern zugeteilt werden. Für den Entwickler heißt das, dass sie sich um die Zuweisung der Hardware-Ressourcen nicht kümmern müssen. Der Arm-Compiler verteilt die ML-Workload einfach auf die NPU und die CPU, ohne dass der Entwickler hierzu besondere Anweisungen geben muss.
Ein weiterer Vorteil des Einsatzes der Ethos NPU ist, dass sich Arm verpflichtet hat, sie weiter zu pflegen, sodass sie immer auf dem aktuellen Stand ist und die neuste Version des vom Entwickler zum Aufbau seines Machine-Learning-Modells gewählten Frameworks – z. B. TensorFlow Lite – unterstützt. Der Support der Ethos NPU durch Arm stellt sicher, dass die Entwickler bei ihrer Wahl des ML-Frameworks nicht eingeschränkt werden. (sg)
* Mark Rootz ist Vice President of Marketing bei Alif Semiconductor