Mit der Stimme das eigene Auto öffnen? Eine Kombination von Technologie mit künstlicher Intelligenz sowie Methoden des maschinellen Lernens ermöglichen das Szenario. In Zukunft nicht nur für eine sichere Stimmauthentifizierung, denn Sprachschnittstellen sollen sowohl mit dem Fahrer als auch mit dem Beifahrer adäquat kommunizieren.
Sprachauthentifizierung im Auto: Für die Kommunikation mit dem Fahrzeug bietet sich eine Kombination aus Technik und künstlicher Intelligenz zusammen mit den Methoden des maschinellen Lernens an.
(Bild: Reply)
Jeder Fahrer kennt das: Man will das Fahrzeug entriegeln, hat aber die Hände voll. Wie praktisch, wenn man einfach in die Sprachschnittstelle des Infotainmentsystems sagen kann: „Bitte Fahrertür öffnen“, und schon öffnet sich die Tür oder mit einem entsprechenden Befehl auch der Kofferraum. Dank biometrischer Verifikation ohne Angst vor unbefugtem Zugriff.
Was nach Zukunftsmusik klingt, ist bereits Realität: Ein Prototyp des Automobilzulieferers Brose ermöglicht das sichere Entriegeln des Autos per Sprachbefehl. Denn: Was wir von der Gesichtserkennung unseres Handys oder von Fingerabdrucksensoren kennen, funktioniert inzwischen auch mit unserer Stimme. Doch wie realisiert man eine solche Stimmen-Authentifizierung als Teil des Infotainmentsystems im Auto, so dass sie nicht nur technisch einwandfrei und sicher funktioniert und auf Stimmen passend reagiert?
Voiceprints identifizieren die Charakteristiken einer Stimme
Ein sprachgesteuertes Fahrzeugmodell führt die Sprachbefehle nur dann aus, wenn Nutzer eines Auto als berechtigt erkannt werden. Dazu überprüft das System die biometrischen Eigenschaften der Stimme, also den akustischen Fingerabdruck. So ist die Sicherheit beim Öffnen des Fahrzeugs per Sprachbefehl gewährleistet. Die biometrische Authentifizierung kann dabei die Stimme mit über 150 Merkmalen vergleichen, um Übereinstimmungen mit dem jeweiligen biometrischen Profil zu erkennen.
Um berechtigte von unberechtigten Nutzern unterscheiden zu können, kann ein Cloud-basierter Provider für Sprecheridentifizierung zum Einsatz kommen. Das kann beispielsweise Aculabs Voisentry sein. Die Voiceprints der berechtigten Nutzer werden auf der Plattform des Anbieters hinterlegt. Die Verifikation erfolgt auf Basis dieser Stimmmuster mithilfe von KI.
Maschinelles Lernen und Emotion AI erkennen gestresste Stimme
Mithilfe von künstlicher Intelligenz und maschinellem Lernen überprüft das System weiterhin, ob der Sprecher unter Zwang handelt. Um das Gesagte automatisch in den Kontext einzuordnen, werden über 50 Parameter in Echtzeit analysiert. Die sogenannte Emotion AI scannt eine Aussage nuancengenau und kann so sogar unbewusste Stress- oder Angstsignale in der Stimme erkennen - etwa anhand von Frequenzeigenschaften oder der Stimmmodulation. Eingebettet in ein maschinelles Lernmodell unterscheidet das System so bis zu 16 Emotionen. Besteht der Kund:in diesen „Stresstest“, steht einer Türentriegelung oder dem Start des Wagens theoretisch nichts mehr im Wege.
Noch funktioniert die Fahrzeugentriegelung per Sprache nur prototypisch. Um die Entwicklung zur Serienreife zu beschleunigen und die Effizienz zu steigern, ist ein digitaler Zwilling des Fahrzeugs hilfreich. Dieser kann nach Verifizierung der Stimme per Sprachsteuerung bedient werden und die Funktionsweise des geplanten Produkts simulieren. Mithilfe eines Fahrzeugmodells, das mit einem Mikrocontroller und Aktuatoren ausgestattet ist, können die Türen oder der Kofferraum des realen Fahrzeugs geöffnet werden. Dieses Modell ermöglicht die Umsetzung der Idee in die Realität.
Weiterhin ist geplant, dieses Projekt mit der Elektronik eines Testfahrzeugs über die Sprachschnittstelle zu koppeln. Dazu werden Mikrofone und Mikrocontroller in das Fahrzeug eingebaut, die zukünftig auch in der Lage sein werden, beispielsweise Störgeräusche herauszufiltern und die Akzeptanzschwellen fein einzustellen.
Sprachgestaltungssysteme für natürliche Sprachausgaben
Das ist nicht die einzige Schwierigkeit, wenn ein Automobilbesitzer oder Fahrer mit einer Sprachschnittstelle kommuniziert. Eine Sprachanwendung muss nicht nur eine Stimme eindeutig erkennen, sondern auch in der Lage sein, dem/der Sprechenden adäquat zu antworten. Und das bestenfalls in der richtigen Tonlage und mit der passenden Wortwahl. Wie realisiert man eine passende Sprachschnittstelle, um Menschen zielgruppengerecht und konsistent im Voice-Design sowie passend zur eigenen Automobilmarke anspricht?
Um ein systematisches Design auf eine Sprachschnittstelle anwenden zu können, müssen zunächst die wiederkehrenden Muster und Elemente identifiziert werden. Ob Geschlecht, Alter, geographischer Hintergrund, Bildungsniveau, Herkunft oder emotionaler Zustand – die Stimme verrät viel über uns. Soll eine Gesprächspersönlichkeit definiert werden, sind die kognitiven Aspekte der Sprache als unverwechselbare Merkmale entscheidend.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
So gilt zum Beispiel: Je reifer die Person ist, desto umfangreicher ist ihr aktiver Wortschatz. Auch kulturelle Aspekte wie „Moin“ versus „Grüß Gott“, Dialekte, Akustik oder Paravokale. Sie spielen bei der Ansprache eine wichtige Rolle. Darüber hinaus sorgen Füllwörter, die von Sprachassistenten verwendet werden, dafür, dass Aussagen menschlicher und natürlicher klingen. Im Automobilbereich muss dies übrigens nicht nur in einer, sondern in mehreren Sprachen erfolgen. So gilt es, alle erdenklichen Speech-to-Text-Befehle eines Fahrers für die Sprachschnittstellen in einem Fahrzeug in verschiedenen Sprachen zu erzeugen und dabei sicherzustellen. Und zwar so, dass sie auch Umgangssprache verstehen, die Markenbotschaft adäquat unterstützen und mögliche kulturelle Aspekte berücksichtigen.
Mit SSML die Sprachausgabe steuern
Technisch wird das durch die sogenannte Speech Synthesis Markup Language (SSML) gelöst. SSML steuert die Aussprache, die Lautstärke, die Tonhöhe und die Geschwindigkeit der Sprachausgabe. Diese Eigenschaften werden kombiniert als Parameter eingebunden, um vielfältige Effekte zu erzielen. Im Automobilumfeld ist damit sogar die Differenzierung von Submarken innerhalb einer Markengruppe möglich: Die Incar-Infotainment-Sprachanwendung eines Audi R8 könnte sich bei einem plötzlich auftretenden Stau anders äußern als die eines A1 Kleinwagens, obwohl sie auf dem gleichen Audi-System basieren. So könnte die Anweisung an die R8-Fahrerin lauten „Stau nach vorangegangenem Unfall: Bitte Warnblinker setzen und Geschwindigkeit reduzieren, um langsam auf das Stauende aufzufahren”, die an den A1-Fahrer „Achtung, Stauende in 100 m, bitte langsam fahren und Warnblinker setzen”.
Bei der Gestaltung von Sprachschnittstellen müssen verschiedene Elemente der Sprache berücksichtigt werden: Zuhörer sind nur dann mit der Sprache eine Infotainmentsystems zufrieden, wenn es Sprachbefehle sicher und eindeutig entgegennehmen kann. Dabei sollte das System möglichst natürlich reagieren. Dank freihändiger Voice-Authentifizierung und ausgefeilter Sprachgestaltungssysteme profitieren sowohl Nutzer als auch Automobilisten in puncto Customer Experience und Serviceeffizienz. Automobilhersteller, die diesen Trend frühzeitig erkennen und für sich nutzen, verschaffen sich durch ein angenehmes Nutzererlebnis einen Wettbewerbsvorteil.
* Maria Müller arbeitet als Conversational Design Lead bei Frank Reply. Sie konzipiert Anwendungen für Sprachassistenten wie Amazon Alexa und Google Assistan. Daniel Fitzpatrick ist Manager für Conversational Solutions des auf Conversational Interfaces spezialisierten IT-Dienstleisters Frank Reply sowie Practice Lead Voice Machine Interfaces bei Reply SE.