Im Smart Home gibt es bereits viele Möglichkeiten der Sprachbedienung. Auch im professionellen Umfeld gibt es Argumente für die Sprachbedienung. An der Hardware muss es nicht scheitern.
Mit der Stimme steuern: Mit einem Starterkit können Entwickler eine Sprachsteuerung für vielfältige Anwendungen implementieren.
Die Pandemie hat die Tendenz verstärkt, nicht mehr jedes Bedienelement berühren zu wollen. Wenn eine Aufgabe durch Sprachsteuerung erledigt werden kann, ist die Berührung nicht mehr notwendig. Sind die Hände nicht frei, nicht sauber oder feucht, dann hilft die Sprachsteuerung.
Wer auch noch den Kopf frei haben will und das Ergebnis nicht auf einem Display ablesen möchte, dem hilft die Ausgabe in synthetischer Sprache. Die aktuelle Technik ist weit entfernt von dem, was man in den achtziger Jahren unter „Sprachausgabe“ bei Heimcomputern verstand. Prosodie (Sprachmelodie) und Phrasierung klingen sehr natürlich, Satzzeichen strukturieren den angesagten Text.
Sprachbedienung: Cloud-basiert oder Offline-System?
Die Anforderungen an eine bestimmte Technologie sind im professionellen Einsatz ungleich höher als im Smart Home-Umfeld. Eine nahezu einhundert prozentige Verfügbarkeit und Zuverlässigkeit spielen eine wichtige Rolle. Ist es im Smart Home eine Unannehmlichkeit, wenn das Licht nicht auf Kommando eingeschaltet wird, ist es im professionellen Einsatz undenkbar, wenn die OP-Leuchte nicht neu fokussiert.
Eine Analyse zeigt: Läuft die Anwendung über einen Cloud-basierten Dienst, so ist das oft mit hohen Latenzzeiten verbunden. Offline-Systeme sind im Vorteil: Das System arbeitet nicht nur deterministisch und in Echtzeit, die Daten bleiben auch lokal und damit privat. Ohne den Zwang der Anbindung an eine leistungsfähige Cloud, in der die Anfragen ausgewertet und bearbeitet werden, funktioniert das Gerät auch dort, wo keine Internetabdeckung vorhanden ist, Daten nur mit mäßiger Bandbreite übertragen werden oder der Cloud-Dienstanbieter seinen Service einstellt.
Hybrides Konzept: Training und Ergebnis sind getrennt
Das vorgestellte Konzept arbeitet hybrid: Das rechenintensive Training, bei dem die Sprachmodelle erstellt werden, findet auf einem leistungsfähigen Server in der Cloud statt. Nur das Ergebnis wandert in den lokalen Speicher und wird im Betrieb zur Erkennung der Eingabe verwendet. Damit kommt der lokale Rechner mit moderaten Ressourcen aus, was sich positiv auf die Wärmeentwicklung und den Stromverbrauch auswirkt. Das bedeutet, dass die Sprachbedienung zur Laufzeit ausschließlich auf dem lokalen System läuft und keine Verbindung zur Laufzeit benötigt.
Die Sprachsynthese verwandelt die auf Spracheingabe ausgerichtete Sprachsteuerung in ein vollwertiges Assistenzsystem mit Sprachausgabe auch für umfangreiche Texte. So kann sich der Bediener oder Servicetechniker aus einer hinterlegten Betriebsanleitung mithilfe entsprechender Suchbegriffe die relevanten Textpassagen heraussuchen und vorlesen lassen. Während der Fehlersuche bleibt der Blick auf der Maschine.
Synthesemodelle mit maschinellen Lernalgorithmen erstellen
Auch hier hilft KI und erstellt Synthesemodelle mit maschinellen Lernalgorithmen, um bei der Sprachsynthese Fließtext in eine dynamische, natürlich klingende Sprachausgabe umzuwandeln. Wie beim Training von Spracherkennungssystemen ist der Prozess zweistufig: Training in der Cloud, Interpretation und Wiedergabe sind lokal. Die Daten bleiben vertraulich und sicher.
Warum ist die Sprachbedienung so interessant und wichtig? Sie ist leicht verständlich und intuitiv. Nach dem Wake-Word, welches das System aufweckt und zum Zuhören auffordert, können in natürlicher Sprache Befehle gegeben oder Informationen abgefragt werden. Im Idealfall kann das System als Do-What-I-Mean-Maschine genutzt werden.
Für die Sprachbedienung spricht auch, dass Sprache schneller kommuniziert als andere Eingabemedien wie die Tastatur. Der Weg im Gehirn vom Gedanken zum Sprachzentrum ist kürzer als der Umweg, die Fingermuskeln in der richtigen Reihenfolge anzusteuern, um eine Tastatur zu bedienen.
Sprachbedienung ergänzt die Eingabe
Das Hauptmedium ist nach wie vor die manuelle Eingabe, sei es über Tastatur, Maus, Gestensteuerung oder einfach über Steuertasten. Überall dort, wo die Hände nicht zur Verfügung stehen, weil sie anderweitig gebraucht werden oder schmutzig sind, kann Sprache die Eingabe ersetzen. Dazu gehört das HMI an der Maschine in der Produktionslinie, wo beide Hände für das Werkstück benötigt werden, oder das Informationssystem am Point of Sales, das Auskunft darüber gibt, wo sich die Geschäfte in der Einkaufspassage oder die Produkte im Regal befinden.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
In der Gastronomie ermöglicht das professionelle Küchengerät die gradgenaue Temperatureinstellung, während die Hände für das Essen sauber bleiben. In der Logistik gibt das Lagersystem Anweisungen, wo ein Artikel entnommen oder abgelegt werden soll. In der Medizintechnik kommt es darauf an, die Hände steril zu halten oder nicht zu kontaminieren, damit Viren und Bakterien nicht übertragen werden.
Auch neue Anwendungen wie Smart Caravaning eignen sich für die Sprachsteuerung: Wo heute Einzellösungen für das Schalten von Licht oder die Abfrage des Füllstands von Frisch- oder Brauchwassertank eingesetzt werden, sorgt eine einheitliche Oberfläche mit Sprachbedienung für eine ergonomische Bedienung.
Kickstart für die professionelle Sprachbedienung
Bild 1: Mit dem Starter-Kit werden die Schritte auf dem Weg zur Sprachsteuerung vereinfacht.
(Bild: Hy-Line)
Mit einer abgestimmten Hardware- und Software-Lösung ist der Weg von der Idee bis zur fertigen Umsetzung einer Sprachbedienung nicht so steinig. Bild 1 zeigt das Starter-Kit, das die Schritte von der Idee bis zum System für den professionellen Einsatz einfacher und schneller macht.
Mit dem Kit steht ein Web-SDK zur Verfügung, das die erforderlichen Algorithmen und Modelle abstrahiert. Unterschiedliche Sprachen sind bereits in Modulen hinterlegt. Der Entwickler erstellt das SUI für die individuelle Anwendung mit spezifischen Dialogen und Befehlen. Darunter liegt das Maschineninterface, das Befehle des SUI an Hardware und GUI weitergibt.
Um diesen Prozess bis zur individuellen Sprachanwendung möglichst einfach zu gestalten, hat Hy-Line ein Starter-Kit (Bild 1) entwickelt. Die Schritte zu einer professionellen anwendungsspezifischen Lösung werden einfacher und die kommerzielle Umsetzung beschleunigt.
Eigene Dialoge ohne Programmierung erstellen
Mit dem Web-SDK können eigene Dialogmodelle ohne Programmierung durch Eingabe von Bedienphrasen mit Schlüsselwörtern erstellt und auf dem Server kompiliert werden. Iterativ wächst das Sprachsystem, indem Synonyme als alternative Eingaben und weitere Befehlssätze formuliert werden. Das Ergebnis wird dann auf das Starter Kit heruntergeladen und funktioniert ohne Internetverbindung.
Das System nimmt den Text entgegen und erkennt selbstständig Schlüsselwörter, die sie den Befehlselementen zuordnet. Füllwörter wie „bitte“ und „äh“ werden übersprungen. Das SDK stellt APIs zur Verfügung, die über MQTT an die eigentliche Geräteanwendung übertragen werden können. Damit wird der erkannte Sprachbefehl in eine Geräteaktion umgesetzt. Die Reaktion kann eine Sprachausgabe, das Schalten eines Ports, eine Ausgabe auf dem Display oder die Änderung eines Wertes in einer JSON-Datei sein.
Sind alle Worte definiert, werden mit den KI-basierten Algorithmen die definierten Sprachressourcen in ein statistisches und ein semantisches Modell übersetzt und zum Download angeboten. Das Ergebnis wird auf die Zielplattform heruntergeladen und gestartet. Dann kann der Netzwerkstecker gezogen werden – das Endprodukt läuft autark. Der Ablauf in der fertigen Applikation ist in Bild 3 dargestellt.
Das Kit ist so konzipiert, dass schnell und einfach funktionsfähige Prototypen erstellt und die Akzeptanz bei der Zielgruppe getestet werden können. Der Aufwand für die Prototypenerstellung kann voll für die kommerzielle Umsetzung genutzt werden.
Notwendige Hardware für die Sprachsteuerung
Das Starter-Kit wird von einem Single-Board-Computer im picoITX-Format angetrieben, der auf der leistungsfähigen iMX8.M-CPU basiert. Als Bedienoberfläche dient ein Display mit 10,1'' und HD-Auflösung sowie kapazitivem Touchscreen. Alle Komponenten sind für den industriellen Einsatz geeignet und so leistungsfähig ausgelegt, dass sie nicht nur die Sprachbedienung ausführen, sondern für viele Anwendungsfälle auch die Plattform für die eigentliche Geräteapplikation bieten. Die erstellte Anwendung muss nicht erst von einer Entwicklungsumgebung auf eine andere Zielplattform portiert werden.
Die akustische Ausgabe erfolgt im einfachsten Fall über einen Summer. Besser ist jedoch ein Lautsprecher, der Quittungstöne und Sprachnachrichten breitbandig ausgeben kann. Während frühere Systeme für die Ausgabe von Meldungen – wie die Ansage von Uhrzeit und Datum – zuvor aufgenommene Audioschnipsel zusammensetzten, bietet TTS (Text-to-Speech) die Freiheit, beliebige Texte in beliebigen Sprachen aus einer Textdatei auszugeben.
Eigene Anwendung webbasiert entwickeln
Bild 2: Die Entwicklung eines Sprachdialogs.
(Bild: Hy-Line)
Mithilfe einer webbasierten Entwicklungsumgebung sind die folgenden Schritte erforderlich, um ein System für die eigene Anwendung zu definieren. Der Sprachdialog, also das Aktivierungswort, mit dem die Aufmerksamkeit des Systems auf Eingabe hergestellt wird, die zulässigen Kommandos und deren Parameter, werden im Webtool als Texteingabe zusammengestellt (Bild 2). Während der Eingabe findet bereits der erste Verarbeitungsschritt statt: Grapheme, also eingegebene Zeichen, werden in Phoneme, also kleinste akustische Bestandteile der Sprache umgewandelt.
Bild 3: Der Ablauf zur Laufzeit in der fertigen Applikation.
(Bild: Hy-Line)
Sind alle Worte definiert, werden mit den KI-basierten Algorithmen die definierten Sprachressourcen in ein statistisches und ein semantisches Modell übersetzt und zum Download angeboten. Das Ergebnis wird auf die Zielplattform heruntergeladen und gestartet. Dann kann der Netzwerkstecker gezogen werden – das Endprodukt läuft autark. Der Ablauf in der fertigen Applikation ist in Bild 3 dargestellt.
Störende Geräusche der Umgebung ausblenden
Der Wortschatz ist praktisch unbegrenzt und funktioniert wie die Spracheingabe lokal auf dem System ohne Internetverbindung zur Laufzeit. Erstaunlich ist die Fähigkeit des Gehirns, mithilfe der Ohren und der Geometrie des Kopfes Geräusche zu isolieren und andere ganz auszublenden. So können wir uns an einem Restauranttisch mit vielen Gästen auf das Gespräch mit unserem Gesprächspartner konzentrieren, während wir die ebenfalls sprechenden Nachbarn und das Geschirrklappern ausblenden.
Bei einem Sprachsystem ist das nicht so einfach. Nur mit einem Richtmikrofon oder elektronischen Filtern erreicht das System mit Rauschunterdrückung (NR) die gleiche Erkennungsqualität. Das Richtmikrofon muss keine lange Bauform haben. Ein Array (Anordnung) aus mehreren Einzelmikrofonen ermöglicht es, den Sprecher des „Wake Word“ auch in einer lauten Umgebung zu identifizieren und gegebenenfalls zu verfolgen. Dies erhöht die Erkennungsgenauigkeit, die Reaktionsgeschwindigkeit und die Akzeptanz des Systems enorm. Ein vergleichbares Prinzip kann auf der Audioausgangsseite eingesetzt werden, um den Ton gezielt in eine Richtung abzustrahlen.
Auf Plattformen mit begrenzten CPU- und Speicherressourcen
Durch die Erweiterung mit Sprache erhält jedes User Interface eine neue Dimension. Die Implementierung ist einfacher als man denkt, denn mit dem Starter-Kit kann man nicht nur sofort eine Demo starten, sondern auch erste Schritte mit eigenen Befehlen und Ausgaben machen. Für die Implementierung eigener Sprachapplikationen steht ein leistungsfähiges SDK zur Verfügung.
Dank moderner Technik arbeitet das System sprachenunabhängig, 30 Sprachen sind vordefiniert. Die Lösung kann auf Plattformen mit begrenzten CPU- und Speicherressourcen eingesetzt werden. Meist reicht ein digitaler Signalprozessor aus. Ein zuverlässiges und schnelles System ohne Online-Verbindung wird durch das Know-how in der Verarbeitung und Aufbereitung von Audiosignalen gewährleistet.