Sprachsteuerung VIT „Speech-to-Intent“: Sprachbedienung ohne Cloud-Anbindung
Anbieter zum Thema
Geräte bedienen ohne Lernaufwand: Laut Anbieter NXP ermöglicht die jetzt vorgestellte VIT „Speech-to-Intent“-Engine smarte Interaktionen mit Edge-Geräten durch natürliches Sprachverstehen. Der Clou: Ein (leistungsstarker) Mikrocontroller reicht für den Betrieb, ressourcenfressende Cloud-Verbindungen sind nicht nötig.

Seit Amazons Alexa hat sich die Bedienung von elektronischen Geräten mittels der menschlichen Stimme immer weiter etabliert. Tatsächlich gehört die Sprachsteuerung in Umgebungen wie Smart Homes, Smart Factories und Smart Cities mittlerweile zu den wichtigsten Benutzerschnittstellen. Das Problem: Edge-Geräte, die nur wenig Rechenressourcen zur Verfügung haben, „verstehen“ nur bestimmte Befehle. Ein halbwegs natürlicher Umgang damit ist per natürlich gesprochener Sprache kaum möglich. Oder die Edge-Devices müssen über das Internet auf leistungsstarke Server in Rechenzentren zugreifen – was sowohl bezüglich des Ressourcenverbrauchs (Strom, Bandbreite) als auch der Privatsphäre bedenklich ist.
Mit seiner nun vorgestellten Voice-Intelligent-Technology-(VIT-)„Speech-to-Intent“-Engine will NXP Semiconductors (NXP) das beste beider Welten zusammenbringen: Natürliche Sprachbedienung und Sparsamkeit. Die Lösung erlaubt es laut Hersteller, auf natürliche Weise mit Maschinen zum Beispiel in IoT-, Industrie- und Automobilanwendungen zu sprechen, ohne sich Befehle oder ganze Satzbausteine zur Bedienung der Geräte merken zu müssen.
Bislang ist man davon noch weit entfernt: Viele smarte Geräte erfordern bei der Spracheingabe präzise Formulierungen oder Cloud-Verbindungen, um die gewünschte Aktion auszuführen. VIT „Speech-to-Intent“, das Teil der VIT-Software-Suite von NXP ist, will das ändern: Durch das „natürliche Sprachverständnis“ der Lösung sollen smarte Geräte die Absichten der Nutzer und Nutzerinnen erkennen können.
Schlanke, auf Mikrocontrollern lauffähige Lösung
Laut Hersteller eröffnet das Raum für Innovationen, insbesondere im Smart Home und in Situationen, in denen Anwender möglicherweise die Hände nicht frei haben, etwa in Krankenhäusern oder Fabrikhallen. NXP will so das Entwickeln von sprachgesteuerten Geräten mit Software, die für seine MCUs und MPUs optimiert ist, erleichtern – vom fortschrittlichen KI-gesteuerten Gerät bis zum kontextabhängigen Sprachbefehl mit VIT „Speech-to-Intent“. Mögliche Anwendungen für eine derartige natürliche Sprachschnittstellen sind unter anderem Smart Watches, Haushaltsgeräte, HLK-Systeme und Beleuchtung.
Die VIT „Speech-to-Intent“-Engine benötigt laut NXP nur wenig Speicherplatz und Rechenleistung. Sie ist kompatibel mit NXP-Bausteinen wie i.MX RT Crossover-MCUs und RW61x-MCUs sowie den Anwendungsprozessoren i.MX 8M Mini, i.MX 8M Plus und i.MX 9x. Bislang unterstützt VIT „Speech-to-Intent“ Interaktionen in englischer Sprache, im Laufe des Jahres wird NXP auch Mandarin hinzufügen. Weitere Unterstützung für Spanisch, Deutsch, Koreanisch, Französisch und Japanisch ist für 2024 geplant.
Cloud-Leistung ohne Cloud-Anbindung
Nach eigenen Angaben hat NXP die VIT-Engine so konzipiert, dass sie mit der Leistung Cloud-basierter Systeme konkurrieren kann, ohne jedoch auf eine Cloud-Verbindung angewiesen zu sein. Das hätte mehrere Vorteile: Neben der deutlich besseren Energieeffizienz wäre es ein Gewinn für den Schutz der Privatsphäre der Nutzer. Auch kürzere Latenzzeiten ließen sich durch die lokale Ausführung der Engine realisieren.
„Wir sind längst auf dem Weg zu intelligenten Geräten, die unsere Bedürfnisse immer besser antizipieren und automatisch erfüllen können. Das gilt insbesondere für das Smart Home. Hier hat sich die Sprache als eine der beliebtesten Methoden erwiesen, um den Geräten unsere Anliegen mitzuteilen“, sagt Rafael Sotomayor, Executive Vice President und General Manager Secure Connected Edge bei NXP. „Mit VIT ‚Speech-to-Intent‘ können Menschen mit intelligenten Geräten interagieren und sind dabei nicht auf bestimmte Schlüsselwörter angewiesen. Das ist bequemer, nutzerfreundlicher und einfacher und ermöglicht den Übergang von einem intelligenten zu einem autonomen Zuhause.“
Intelligente Sprachtechnologie-Suite
VIT „Speech-to-Intent“ ist Teil der Voice Intelligent Technology (VIT) Software-Suite, einem umfassenden Softwarepaket für lokale Sprachsteuerung von NXP. VIT basiert auf Deep-Learning-Algorithmen und umfasst eine ständig aktive Wake-Word-Engine, eine Voice-Command-Engine und eben die „Speech-to-Intent“-Engine. Entwickler sollen mit dem kostenlosen Wake-Word- und Voice-Command-Engines von NXP sofort loslegen können. Beide sind über das MCUXpresso SDK verfügbar und werden von einem Online-Tool zur Modellerstellung unterstützt. Darüber hinaus ist ein Upgrade auf die „Speech-to-Intent“-Engine möglich. (me)
:quality(80)/p7i.vogel.de/wcms/b1/66/b1666afadebf27d45e48e28667032378/0111274465.jpeg)
Starter-Kit
Wie sich Sprachbedienung unkompliziert umsetzen lässt
:quality(80)/p7i.vogel.de/wcms/b4/8b/b48b5aa7486a8b2a4abe2a7de6cd9cbc/0113053535.jpeg)
Authentifizierung im Fahrzeug
Sprachbefehl statt Autoschlüssel: Wie Sprachauthentifizierung im Auto gelingt
:quality(80)/p7i.vogel.de/wcms/22/c3/22c324ff74e9301f4c555747916b0ad6/0109060448.jpeg)
Automotive
Sprachassistenten im Auto werden immer wichtiger
(ID:49774665)