Intelligente Produkte sind schon so lange Teil unseres Lebens, dass wir mittlerweile immer mehr von ihnen erwarten und manchmal enttäuscht sind, wenn sie etwas nicht können. Umso erfreulicher, dass die nächste Generation von Edge-Geräten einen großen Sprung nach vorne verspricht.
Multimodale Edge-Geräte: Wie die Kaffeemaschine lernt, den Lieblingskaffee automatisch zuzubereiten.
(Bild: KI-generiert)
Dank Fortschritten in der künstlichen Intelligenz wird ein multimodaler Betrieb es diesen Geräten bald ermöglichen, akustisch, visuell, haptisch oder über andere Mechanismen zu reagieren und ihre Reaktionen sogar an den Nutzer, dessen Tonfall oder Mimik anzupassen, wodurch sie weitaus leistungsfähiger und intuitiver werden.
Mit multimodal ist die Fähigkeit eines Systems gemeint, mehrere Arten sensorischer Eingaben zu verarbeiten. Vor allem aber ist es dadurch in der Lage, mehrere Eingabetypen gleichzeitig zu verarbeiten, um bessere Ergebnisse zu erzielen, als ein Produkt mit nur einem einzigen sensorischen Eingabetyp liefern kann. Bei den Sensoren eines solchen Systems kann es sich um optische, Infrarot-, Radar-, LiDAR-, Schall-, Vibrations-, Beschleunigungs-, elektromagnetische Sensoren oder andere handeln. Wenn diese Sensoren in kommerzielle Produkte integriert werden, können sie Sprache, Text, Video, Gesten, Objekte, Standort, Gesichter und sogar Gesichtsausdrücke erkennen.
Der multimodale Betrieb ist kein neues Konzept, vielmehr ist er bereits eine Kernfunktion zahlreicher bestehender Produkte, von Fahrzeugen bis hin zu medizinischen Systemen. In Fahrerassistenzsystemen (ADAS) beispielsweise arbeiten Kameras, Radar und LiDAR zusammen, um ein weitaus detailreicheres Bild der Fahrzeugumgebung zu erstellen, als es mit reinen Kamerasystemen möglich wäre. Neu ist jedoch, dass multimodale Funktionen nun sowohl technologisch machbar als auch wirtschaftlich vertretbar für elektronische Geräte an der Netzwerkperipherie (Edge) werden, einschließlich Produkte mit IoT-Funktionen. Die Technologien und Hilfsmittel, die für die Entwicklung und Herstellung multimodaler Edge-AI-Produkte benötigt werden, sind bereits heute verfügbar.
In diesem Artikel erörtern wir die Weiterentwicklung der KI von Rechenzentren zur Edge, untersuchen, wie Edge-KI multimodale Funktionen unterstützt, und betrachten, was dies für IoT-Geräte und andere Produkte in der Edge bedeutet.
KI erobert die Edge
Für viele Edge-Geräte ist die Ausführung von Inferenz-Workloads in der Cloud nach wie vor kosteneffizient. Es gibt jedoch zwingende Gründe, die KI-Verarbeitung näher an das Gerät selbst heranzubringen. Beispielsweise erfordern einige Anwendungen Ergebnisse in Echtzeit, doch der bisherige Prozess, Daten erst an Rechenzentren zu senden, um diese Ergebnisse zu erhalten, führt zu Netzwerklatenz.
Auch Datensicherheit und Datenschutz sind kritische Aspekte und in manchen Fällen gesetzlich geregelt. Dies kann insbesondere bei industriellen Systemen, medizinischen Geräten (einschließlich Wearables) und Smart-City-Anwendungen der Fall sein. Indem die Daten auf lokaler Ebene verbleiben, ist es erheblich leichter, sowohl Datenschutz als auch Sicherheit zu gewährleisten.
Zwar gab es immer schon überzeugende Gründe dafür, KI-Workloads auf Edge-Geräten auszuführen, doch stellte dies bisher aufgrund der klassischen Kompromisse zwischen Preis, Leistung und Stromverbrauch (Price, Performance, Power – PPP), die jedem Entwickler bekannt sind, eine Herausforderung dar. Wichtige Voraussetzungen für Edge-KI waren unter anderem ausreichende Rechenleistung, um KI-Modelle bei minimalem Stromverbrauch auf engstem Raum auszuführen, ebenso wie kostengünstige, schlanke KI-Modelle und effizientere Algorithmen. Dank der jüngsten Fortschritte sind diese Voraussetzungen nun erfüllt.
Gründe für den Erfolg von Edge-KI
Mittlerweile sind System-on-a-Chip-Lösungen (SoCs) verfügbar, die extrem stromsparende Rechenkerne, von Standardlogik und GPUs bis hin zu spezialisierten KI-Prozessoren und Co-Prozessoren, kombiniert in einem Gehäuse vereinen. Für spezifische KI-Workloads stehen zunehmend KI-Kerne zur Verfügung, wie zum Beispiel Googles neue RISC-V-basierte Coral-NPU für maschinelles Lernen (ML).
Die im Alltag am häufigsten anzutreffende KI sind LLMs, die das Herzstück von beliebten Suchmaschinen bilden. Diese Modelle sind enorm umfangreich, denn sie sind darauf ausgelegt, eine Vielzahl von Fragen – wer, was, warum, wann, wo und wie – zu jedem im Internet verfügbaren Wissen zu beantworten. Für die meisten Edge-Anwendungen, wie beispielsweise eine KI-gesteuerte Kaffeemaschine oder einen Parkscheinautomaten, sind Modelle dieser Komplexität und Raffinesse jedoch nicht erforderlich. Deshalb arbeiten Entwickler daran, KI-Modelle zu optimieren, indem sie diese auf einen spezifischen Wissensbereich beschränken. Solche schlanken KI-Modelle lassen sich problemlos auf den für Edge-Geräte entwickelten SoCs ausführen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Gleichzeitig machen es immer leistungsfähigere und flexiblere Entwicklungstools für Edge-KI – von denen viele als Open Source verfügbar sind – einfacher denn je, intelligente, bereichsspezifische Anwendungen in der Edge zu entwickeln und einzusetzen.
Unimodaler und multimodaler Betrieb
Im unimodalen Betrieb gibt es seit einiger Zeit eine breite Palette an intelligenten Produkten. So kennen wir beispielsweise Lautsprecher mit Mikrofonen, die Sprachbefehle interpretieren können, Thermostate mit Bewegungssensoren, die erkennen, ob jemand einen Raum betritt, und die Temperatur entsprechend anpassen, sowie Blutzuckermessgeräte, die den Nutzer warnen, wenn der Blutzuckerspiegel außerhalb des Normalbereichs liegt.
Multimodale Eingaben: Unterschiedliche Sensoren schaffen Kontext für die KI.
(Bild: KI-generiert)
Dies sind durchaus bemerkenswerte Fortschritte, doch multimodale Konzepte ermöglichen noch weitaus komplexere Funktionen. Mit den heutigen effizienten, erschwinglichen und extrem stromsparenden Prozessoren, die für KI optimiert sind, in Kombination mit schlanken KI-Modellen und immer effizienteren Algorithmen ist es nun machbar, mehr als eine Art von sensorischer Eingabe zu unterstützen. Als Beispiel könnte man so ein bestehendes Produkt mit einem Mikrofon, Bewegungsmelder, Lichtsensor oder sonstigen Umgebungssensoren aufrüsten. In der Praxis war jedoch Video lange Zeit die am meisten gewünschte, aber am schwersten zu realisierende Funktion.
Da die Videoverarbeitung nun jedoch lokal und kostengünstig erfolgen kann, sind die technischen Hürden gefallen. Womit wir zum Thema Datenschutz kommen. Verbraucher haben verständlicherweise Bedenken, Kameras in ihren Wohnungen zu installieren, da sie befürchten, dass Videoaufnahmen ihrer Wohnungen und Familien in die falschen Hände geraten könnten. Auch Unternehmen sind mit der externen Verarbeitung ihrer Videodaten vorsichtig, da sie befürchten, dass im Falle eines Datenabflusses Betriebsabläufe oder geschützte Daten offengelegt werden könnten.
Edge-KI bietet als leistungsstarkes, flexibles und vor allem lokales Konzept eine Lösung für diese Bedenken. Indem die Daten auf dem Gerät verbleiben, wird der Datenschutz gewahrt und gleichzeitig das volle Potenzial der multimodalen Sensorik ausgeschöpft, wodurch die Videointegration sowohl praktikabel als auch sicher wird.
Neue Perspektiven für die multimodale Technik
Multimodale Edge-KI, die mit Video arbeitet, eröffnet neue Möglichkeiten, zu denen beispielsweise die Benutzeridentifizierung und Gestenerkennung gehören können. Bislang benötigen Smart-Geräte mit Mikrofonen Aktivierungswörter, um zu reagieren, und selbst das klappt nicht immer. Wir sind bereits daran gewöhnt, auf bestimmten Geräten, wie etwa Computer, Smart-TVs und Spielkonsolen, Benutzerprofile auszuwählen. Aber wie wäre es, wenn der Smart-Speaker, die Smart-Set-Top-Box (STB) oder die smarte Kaffeemaschine mit einer Kamera ausgestattet wäre und zusätzlich zur Reaktion auf Sprachbefehle visuell erkennen könnte, wer das Gerät gerade nutzt?
Der nächste Schritt wäre die Personalisierung durch Machine Learning, um die Vorlieben jedes Nutzers zu erlernen und entsprechend zu handeln. Eine intelligente Kaffeemaschine könnte zum Beispiel lernen, zu fragen: „Das Übliche?“, auf eine positive Antwort zu warten und zu wissen, dass dies für einen Benutzer einen Latte und für einen anderen Benutzer einen halbentkoffeinierten Americano bedeutet.
Der multimodale Betrieb ermöglicht zudem ein verbessertes Kontextbewusstsein. Angenommen, es ist 22:30 Uhr und zwei Benutzer unterhalten sich in der Küche über den frühen Start am nächsten Morgen und ihr Bedürfnis nach Kaffee. Eine aktuelle intelligente Kaffeemaschine könnte diese Unterhaltung als Befehl interpretieren, aus dem Ruhemodus aufwachen und direkt mit der Kaffeezubereitung beginnen.
In einem zukünftigen kontextbewussten Modell würde jedoch der Hochleistungsbereich aktiviert werden. Dieser Bereich bietet eine deutlich höhere Verarbeitungsleistung und eignet sich daher für rechenintensive Anwendungen wie Gesichtserkennung, Schätzung der Körperhaltung sowie fortgeschrittene Objekterkennung und -klassifizierung. Das bedeutet, dass die Maschine zusätzliche Eingabeinformationen auswerten könnte, beispielsweise die Tatsache, dass keine der beiden Personen nach einer Tasse greift und sie die Küche verlassen, woraus die Maschine schließen kann, dass erst später Kaffee benötigt wird. Sie könnte dann reagieren, indem sie fragt, für wann die Zubereitung geplant werden soll.
Dieses Beispiel ist zwar spekulativ, zeigt jedoch, welche Arten von adaptiven Verhaltensweisen und Reaktionen möglich werden könnten, wenn Geräte mehrere Eingabearten lokal, effizient und sicher mit kontextbewusster, multimodaler Edge-KI interpretieren können.
Fazit: Neue Chancen für IoT-Entwickler
Fortschritte im Bereich der Edge-KI eröffnen ganz neue Möglichkeiten für den multimodalen Betrieb. Entwickler von IoT-Geräten können KI einsetzen, um mehrere Eingabearten leichter zu verarbeiten und immer ausgefeiltere Antworten zu generieren, was einen erheblichen Sprung in puncto Mehrwert und Funktionalität darstellt.
Diese KI-Fortschritte beinhalten außerordentliche Entwicklungen bei der Erstellung kompakter und dennoch vielseitiger Modelle, die auf KI-nativen Beschleunigern in Kombination mit kostengünstigen Prozessoren mit moderater Rechenleistung laufen. Die Fähigkeit, multimodale Workloads lokal in der Edge zu verarbeiten, steigert die Kosteneffizienz und Leistungsfähigkeit noch zusätzlich.
Aus Entwicklersicht stellt die Implementierung von Edge-KI-Anwendungen, insbesondere multimodaler Art, eine Herausforderung dar. Fortlaufende Verbesserungen bei Hardware, Algorithmen und Entwicklungstools machen solche Anwendungen jedoch immer praktikabler und zugänglicher. (mc)
* Neeta Sheno ist VP, Corporate Marketing bei Synaptics.