IoT-Sensorik Der Durchbruch multimodaler Edge-Geräte

Ein Gastbeitrag von Neeta Sheno* 7 min Lesedauer

Anbieter zum Thema

Intelligente Produkte sind schon so lange Teil unseres Lebens, dass wir mittlerweile immer mehr von ihnen erwarten und manchmal enttäuscht sind, wenn sie etwas nicht können. Umso erfreulicher, dass die nächste Generation von Edge-Geräten einen großen Sprung nach vorne verspricht.

Multimodale Edge-Geräte: Wie die Kaffeemaschine lernt, den Lieblingskaffee automatisch zuzubereiten.(Bild:  KI-generiert)
Multimodale Edge-Geräte: Wie die Kaffeemaschine lernt, den Lieblingskaffee automatisch zuzubereiten.
(Bild: KI-generiert)

Dank Fortschritten in der künstlichen Intelligenz wird ein multimodaler Betrieb es diesen Geräten bald ermöglichen, akustisch, visuell, haptisch oder über andere Mechanismen zu reagieren und ihre Reaktionen sogar an den Nutzer, dessen Tonfall oder Mimik anzupassen, wodurch sie weitaus leistungsfähiger und intuitiver werden.

Mit multimodal ist die Fähigkeit eines Systems gemeint, mehrere Arten sensorischer Eingaben zu verarbeiten. Vor allem aber ist es dadurch in der Lage, mehrere Eingabetypen gleichzeitig zu verarbeiten, um bessere Ergebnisse zu erzielen, als ein Produkt mit nur einem einzigen sensorischen Eingabetyp liefern kann. Bei den Sensoren eines solchen Systems kann es sich um optische, Infrarot-, Radar-, LiDAR-, Schall-, Vibrations-, Beschleunigungs-, elektromagnetische Sensoren oder andere handeln. Wenn diese Sensoren in kommerzielle Produkte integriert werden, können sie Sprache, Text, Video, Gesten, Objekte, Standort, Gesichter und sogar Gesichtsausdrücke erkennen.

Der multimodale Betrieb ist kein neues Konzept, vielmehr ist er bereits eine Kernfunktion zahlreicher bestehender Produkte, von Fahrzeugen bis hin zu medizinischen Systemen. In Fahrerassistenzsystemen (ADAS) beispielsweise arbeiten Kameras, Radar und LiDAR zusammen, um ein weitaus detailreicheres Bild der Fahrzeugumgebung zu erstellen, als es mit reinen Kamerasystemen möglich wäre. Neu ist jedoch, dass multimodale Funktionen nun sowohl technologisch machbar als auch wirtschaftlich vertretbar für elektronische Geräte an der Netzwerkperipherie (Edge) werden, einschließlich Produkte mit IoT-Funktionen. Die Technologien und Hilfsmittel, die für die Entwicklung und Herstellung multimodaler Edge-AI-Produkte benötigt werden, sind bereits heute verfügbar.

In diesem Artikel erörtern wir die Weiterentwicklung der KI von Rechenzentren zur Edge, untersuchen, wie Edge-KI multimodale Funktionen unterstützt, und betrachten, was dies für IoT-Geräte und andere Produkte in der Edge bedeutet.

KI erobert die Edge

Für viele Edge-Geräte ist die Ausführung von Inferenz-Workloads in der Cloud nach wie vor kosteneffizient. Es gibt jedoch zwingende Gründe, die KI-Verarbeitung näher an das Gerät selbst heranzubringen. Beispielsweise erfordern einige Anwendungen Ergebnisse in Echtzeit, doch der bisherige Prozess, Daten erst an Rechenzentren zu senden, um diese Ergebnisse zu erhalten, führt zu Netzwerklatenz.

Auch Datensicherheit und Datenschutz sind kritische Aspekte und in manchen Fällen gesetzlich geregelt. Dies kann insbesondere bei industriellen Systemen, medizinischen Geräten (einschließlich Wearables) und Smart-City-Anwendungen der Fall sein. Indem die Daten auf lokaler Ebene verbleiben, ist es erheblich leichter, sowohl Datenschutz als auch Sicherheit zu gewährleisten.

Zwar gab es immer schon überzeugende Gründe dafür, KI-Workloads auf Edge-Geräten auszuführen, doch stellte dies bisher aufgrund der klassischen Kompromisse zwischen Preis, Leistung und Stromverbrauch (Price, Performance, Power – PPP), die jedem Entwickler bekannt sind, eine Herausforderung dar. Wichtige Voraussetzungen für Edge-KI waren unter anderem ausreichende Rechenleistung, um KI-Modelle bei minimalem Stromverbrauch auf engstem Raum auszuführen, ebenso wie kostengünstige, schlanke KI-Modelle und effizientere Algorithmen. Dank der jüngsten Fortschritte sind diese Voraussetzungen nun erfüllt.

Gründe für den Erfolg von Edge-KI

Mittlerweile sind System-on-a-Chip-Lösungen (SoCs) verfügbar, die extrem stromsparende Rechenkerne, von Standardlogik und GPUs bis hin zu spezialisierten KI-Prozessoren und Co-Prozessoren, kombiniert in einem Gehäuse vereinen. Für spezifische KI-Workloads stehen zunehmend KI-Kerne zur Verfügung, wie zum Beispiel Googles neue RISC-V-basierte Coral-NPU für maschinelles Lernen (ML).

Die im Alltag am häufigsten anzutreffende KI sind LLMs, die das Herzstück von beliebten Suchmaschinen bilden. Diese Modelle sind enorm umfangreich, denn sie sind darauf ausgelegt, eine Vielzahl von Fragen – wer, was, warum, wann, wo und wie – zu jedem im Internet verfügbaren Wissen zu beantworten. Für die meisten Edge-Anwendungen, wie beispielsweise eine KI-gesteuerte Kaffeemaschine oder einen Parkscheinautomaten, sind Modelle dieser Komplexität und Raffinesse jedoch nicht erforderlich. Deshalb arbeiten Entwickler daran, KI-Modelle zu optimieren, indem sie diese auf einen spezifischen Wissensbereich beschränken. Solche schlanken KI-Modelle lassen sich problemlos auf den für Edge-Geräte entwickelten SoCs ausführen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Gleichzeitig machen es immer leistungsfähigere und flexiblere Entwicklungstools für Edge-KI – von denen viele als Open Source verfügbar sind – einfacher denn je, intelligente, bereichsspezifische Anwendungen in der Edge zu entwickeln und einzusetzen.

Unimodaler und multimodaler Betrieb

Im unimodalen Betrieb gibt es seit einiger Zeit eine breite Palette an intelligenten Produkten. So kennen wir beispielsweise Lautsprecher mit Mikrofonen, die Sprachbefehle interpretieren können, Thermostate mit Bewegungssensoren, die erkennen, ob jemand einen Raum betritt, und die Temperatur entsprechend anpassen, sowie Blutzuckermessgeräte, die den Nutzer warnen, wenn der Blutzuckerspiegel außerhalb des Normalbereichs liegt.

Multimodale Eingaben: Unterschiedliche Sensoren schaffen Kontext für die KI.(Bild:  KI-generiert)
Multimodale Eingaben: Unterschiedliche Sensoren schaffen Kontext für die KI.
(Bild: KI-generiert)

Dies sind durchaus bemerkenswerte Fortschritte, doch multimodale Konzepte ermöglichen noch weitaus komplexere Funktionen. Mit den heutigen effizienten, erschwinglichen und extrem stromsparenden Prozessoren, die für KI optimiert sind, in Kombination mit schlanken KI-Modellen und immer effizienteren Algorithmen ist es nun machbar, mehr als eine Art von sensorischer Eingabe zu unterstützen. Als Beispiel könnte man so ein bestehendes Produkt mit einem Mikrofon, Bewegungsmelder, Lichtsensor oder sonstigen Umgebungssensoren aufrüsten. In der Praxis war jedoch Video lange Zeit die am meisten gewünschte, aber am schwersten zu realisierende Funktion.

Da die Videoverarbeitung nun jedoch lokal und kostengünstig erfolgen kann, sind die technischen Hürden gefallen. Womit wir zum Thema Datenschutz kommen. Verbraucher haben verständlicherweise Bedenken, Kameras in ihren Wohnungen zu installieren, da sie befürchten, dass Videoaufnahmen ihrer Wohnungen und Familien in die falschen Hände geraten könnten. Auch Unternehmen sind mit der externen Verarbeitung ihrer Videodaten vorsichtig, da sie befürchten, dass im Falle eines Datenabflusses Betriebsabläufe oder geschützte Daten offengelegt werden könnten.

Edge-KI bietet als leistungsstarkes, flexibles und vor allem lokales Konzept eine Lösung für diese Bedenken. Indem die Daten auf dem Gerät verbleiben, wird der Datenschutz gewahrt und gleichzeitig das volle Potenzial der multimodalen Sensorik ausgeschöpft, wodurch die Videointegration sowohl praktikabel als auch sicher wird.

Neue Perspektiven für die multimodale Technik

Multimodale Edge-KI, die mit Video arbeitet, eröffnet neue Möglichkeiten, zu denen beispielsweise die Benutzeridentifizierung und Gestenerkennung gehören können. Bislang benötigen Smart-Geräte mit Mikrofonen Aktivierungswörter, um zu reagieren, und selbst das klappt nicht immer. Wir sind bereits daran gewöhnt, auf bestimmten Geräten, wie etwa Computer, Smart-TVs und Spielkonsolen, Benutzerprofile auszuwählen. Aber wie wäre es, wenn der Smart-Speaker, die Smart-Set-Top-Box (STB) oder die smarte Kaffeemaschine mit einer Kamera ausgestattet wäre und zusätzlich zur Reaktion auf Sprachbefehle visuell erkennen könnte, wer das Gerät gerade nutzt?

Der nächste Schritt wäre die Personalisierung durch Machine Learning, um die Vorlieben jedes Nutzers zu erlernen und entsprechend zu handeln. Eine intelligente Kaffeemaschine könnte zum Beispiel lernen, zu fragen: „Das Übliche?“, auf eine positive Antwort zu warten und zu wissen, dass dies für einen Benutzer einen Latte und für einen anderen Benutzer einen halbentkoffeinierten Americano bedeutet.

Der multimodale Betrieb ermöglicht zudem ein verbessertes Kontextbewusstsein. Angenommen, es ist 22:30 Uhr und zwei Benutzer unterhalten sich in der Küche über den frühen Start am nächsten Morgen und ihr Bedürfnis nach Kaffee. Eine aktuelle intelligente Kaffeemaschine könnte diese Unterhaltung als Befehl interpretieren, aus dem Ruhemodus aufwachen und direkt mit der Kaffeezubereitung beginnen.

In einem zukünftigen kontextbewussten Modell würde jedoch der Hochleistungsbereich aktiviert werden. Dieser Bereich bietet eine deutlich höhere Verarbeitungsleistung und eignet sich daher für rechenintensive Anwendungen wie Gesichtserkennung, Schätzung der Körperhaltung sowie fortgeschrittene Objekterkennung und -klassifizierung. Das bedeutet, dass die Maschine zusätzliche Eingabeinformationen auswerten könnte, beispielsweise die Tatsache, dass keine der beiden Personen nach einer Tasse greift und sie die Küche verlassen, woraus die Maschine schließen kann, dass erst später Kaffee benötigt wird. Sie könnte dann reagieren, indem sie fragt, für wann die Zubereitung geplant werden soll.

Dieses Beispiel ist zwar spekulativ, zeigt jedoch, welche Arten von adaptiven Verhaltensweisen und Reaktionen möglich werden könnten, wenn Geräte mehrere Eingabearten lokal, effizient und sicher mit kontextbewusster, multimodaler Edge-KI interpretieren können.

Fazit: Neue Chancen für IoT-Entwickler

Fortschritte im Bereich der Edge-KI eröffnen ganz neue Möglichkeiten für den multimodalen Betrieb. Entwickler von IoT-Geräten können KI einsetzen, um mehrere Eingabearten leichter zu verarbeiten und immer ausgefeiltere Antworten zu generieren, was einen erheblichen Sprung in puncto Mehrwert und Funktionalität darstellt.

Diese KI-Fortschritte beinhalten außerordentliche Entwicklungen bei der Erstellung kompakter und dennoch vielseitiger Modelle, die auf KI-nativen Beschleunigern in Kombination mit kostengünstigen Prozessoren mit moderater Rechenleistung laufen. Die Fähigkeit, multimodale Workloads lokal in der Edge zu verarbeiten, steigert die Kosteneffizienz und Leistungsfähigkeit noch zusätzlich.

Aus Entwicklersicht stellt die Implementierung von Edge-KI-Anwendungen, insbesondere multimodaler Art, eine Herausforderung dar. Fortlaufende Verbesserungen bei Hardware, Algorithmen und Entwicklungstools machen solche Anwendungen jedoch immer praktikabler und zugänglicher. (mc)

* Neeta Sheno ist VP, Corporate Marketing bei Synaptics.

(ID:50839028)