Design: Was für Sprach-Interfaces der Zukunft wichtig ist

Dieter Petereit

ist seit 1994 im Netz unterwegs, aber bereits seit über 30 Jahren...

Seit ein paar Tagen besitze ich einen Amazon Echo. Das Gerät zeigt mir eindrucksvoll, wie limitiert heutzutage Sprach-Interfaces sind. Da muss sich was tun.

Die Sprachassistentin von heute

Ich bin mir leider nicht sicher.” “Das weiß ich leider nicht.” Diese beiden Antworten gibt mir Alexa, die Sprachassistentin aus dem Amazon Echo, mit Abstand am häufigsten. Das ist zwar in jedem Einzelfall unbefriedigend, aber letztlich nur ein Problem der verfügbaren Knowledge-Base. Gib Alexas Backend mehr Masse und diese Art von Antwort wird sich massiv reduzieren. Deshalb will ich diesem Beitrag gar nicht weiter auf das Problem fehlenden Wissens eingehen.

Schicke Dose, vornehmlich als Lautsprecher geeignet. (Foto: Amazon)

Erlaubt sei lediglich der Hinweis, dass an diesem Punkt der Google Assistant jeglichen Wettstreit gewinnt. Auch Siri scheitert ähnlich oft wie Alexa, obwohl Siri im Vergleich die älteste Technologie ist und von daher am ausgereiftesten sein sollte.

Die Spracherkennung funktioniert einwandfrei

Das eigentliche Problem mit Alexa und allen anderen Sprachassistenten ist von ganz anderer Natur. Es hat nichts mehr mit dem vormals größten Hemmschuh, nämlich der Spracherkennung an sich, zu tun. Dank schneller Cloud-Anbindungen und genügend Rechenpower ist die Erkennung als solche nahezu perfekt. Selbst die Unterscheidung verschiedener Sprachen in einem Satz stellt die Technologie nicht mehr vor Probleme.

Die nächste große Baustelle, die dem Erfolg der Sprachtechnologie in der Form der Conversational Interfaces jetzt im Wege steht, ist das Konzept der Konversation selbst. Ehrlicherweise muss ich einräumen, dass der Umgang mit meinem Echo nicht viel mit einer Konversation zu tun hat.

Die Interaktion ähnelt dem MS-DOS der Achtziger

Alexa erinnert mich eher an das frühe MS-DOS. Quasi per Kommandozeile kitzle ich ein ums andere Sätzchen aus der schlanken Dose. Stets beginne ich meine Kommandos dabei mit dem Wort “Alexa”. Auf Nachfragen reagiert der Echo nicht. Ohne “Alexa” läuft nicht viel. In manchen externen Skills sieht das bereits anders aus. Das will ich gerne einräumen, aber die Basisfunktionalität ist sehr unrund.

Schee isse ja. Und Musik klingt wirklich gut aus dem Lautsprecher. (Foto: Amazon)

Ebenfalls ist es nicht möglich, zu reden, wie mir der Schnabel gewachsen ist. Alexa legt Wert darauf, dass ein Satz so eingesprochen wird, wie sie es vorgesehen hat. Ansonsten versteht sie das Kommando halt nicht. Zwar haben die Entwickler für typische Eingaben bereits die ein oder andere alternative Variante vorgesehen. Kennen musst du sie dennoch, damit Alexa antwortet. Das ist, man muss es zugeben, schon sehr nerdig und ganz nah an der Spielerei. Nicht zufällig dürfte daher ausgerechnet das Stellen eines Timers zu den meistgenutzten Echo-Funktionen zählen.

Die Sprachassistentin von morgen

In diesem Beitrag auf t3n stellte ich Conversational Interfaces als Dialogsysteme der Zukunft vor. In diesem und in diesem Beitrag hier auf Dr. Web beschäftigte ich mit Storytelling als wichtigstem Design-Element kommender Generationen. Die Zeit bis zum Übergang von rein visuellem zu sprachorientiertem Design schätzte ich auf etwa zehn Jahre. Wenn ich mir meine Alexa so ansehen, würde ich mich wohl auf 15 Jahre hochkorrigieren wollen.

Kennst du unser E-Book-Bundle? Spare jetzt 6,99 €

E-Book Bundle von Andreas Hecht

Kommen wir zurück zur bereits benannten nächsten großen Baustelle im Conversational Design per Sprachsteuerung. Komplexe Vorgänge, wie etwa der Kauf eines mit verschiedenen Optionen zu konfigurierenden Produktes, lassen sich nicht mit der heutzutage üblichen Einsatzstrategie abbilden. Hier bedarf es tatsächlich eines Gesprächs mit der Technologie, um zum Ergebnis zu kommen. Dabei muss der Sprachassistent für Konversion sorgen, darf also selber nicht nur kein Hemmschuh sein, sondern muss sogar den Vorgang positiv unterstützen können.

Der Sprachassistent, der mich motiviert und engagiert hält, ist mir bis dato nicht begegnet. Einen solchen zu erschaffen, wird für Designer ein außerordentlich hartes Stück Arbeit. Es ist ein Stück weit vergleichbar mit dem Design eines längeren Formulars. Auch hier besteht die Gefahr, dass der User jederzeit aussteigt. Die ermittelten Abbruchraten gängiger Warenkorbstatistiken bestätigen das. Wichtig ist also, eine Bindung zwischen dem Nutzer und dem System aufzubauen. Auf der untersten Ebene beginnt diese Verbindung damit, dass das System Daten, die es bereits kennt, nicht neu anfordert.

Kontext is King: Der Sprachassistent braucht ein Kurzzeitgedächtnis (mindestens)

Stellen wir uns vor, wir sprechen mit einem Kollegen über Heinz aus der Personalabteilung. Nach den ersten paar Sätzen werden wir von Heinz als “ihm, er” sprechen, ohne jeweils erneut darauf hinzuweisen, dass wir immer noch den gleichen Heinz meinen. Im Verlaufe des Gesprächs werden wir Kontext aufbauen, den wir in späteren Sätzen wiederum als bekannt voraussetzen. So verstehen wir auch subtile Anspielungen. Zehn Minuten später haben wir das Gespräch über Heinz mit ziemlicher Sicherheit vergessen.

Bislang sind die Sprachassistenten eher Informationssysteme, etwa wie Lexika oder Wörterbücher. (Foto: Google)

Auf den Sprachassistenten übertragen, würde das bedeuten, dass er quasi eine Art Kurzzeitgedächtnis bräuchte, um mit Informationen und Kontext für eine begrenzte Zeit produktiv umgehen zu können. Bei Siri und dem Google Assistenten sehen wir erste Ansätze dessen, wenn es etwa um das Versenden einer Whatsapp-Nachricht geht. Hier führt der Assistent durch den Prozess.

Einfach, zielstrebig, vertrauenswürdig: der perfekte Sprachassistent

Apropos führen: Genau dieser Aspekt spielt natürlich beim Dialogdesign eine maßgebliche Rolle. Wir sprechen stets von der Benutzerführung, meinen dabei aber zumeist die Klickpfade, die wir mehr oder weniger geschickt gelegt haben. Mit einer Sprachtechnologie können wir echtes Führen kultivieren. Darin sehe ich einen massiven Vorteil.

Bei all dem müssen Sprachinterfaces stets einfach zu bedienen bleiben. Tatsächlich ergeben Sprachinterfaces auf lange Sicht nur dann Sinn, wenn sie jeweils die einfachste Möglichkeit darstellen. Ansonsten werden Nutzer stets die andere, einfachere Alternative suchen. Auf Dauer werden wir dann auch auf die Aufweck-Kommandos verzichten müssen. Denn es ist nicht natürlich, jeden Satz etwa mit “Alexa, …” zu beginnen. Stattdessen müsste der Assistent aus dem Kontext heraus erkennen, dass er gefragt sein könnte. Der datenschutzrechtliche Aspekt dieser Aussage ist mir dabei durchaus bewusst und muss geregelt werden.

Ein echter Gefährte, quasi eine Vertrauensperson kann der Sprachassistent auch nach all den angesprochenen Verbesserungen nur dann werden, wenn er sich auf uns einlässt. Dazu müsste er unsere Eigenheiten erlernen und darauf eingehen. Ansonsten wird er auf Dauer der synthetische Informationsgeber bleiben, der er teils heute schon ist. Diesem begegnen wir indes nur selten mit Vertrauen, sondern eher reserviert, reservierter noch als einer Website. Letztere kennen wir seit fast einem Vierteljahrhundert und damit einfach besser als den sprechenden Algorithmus.

Jo, mei. Host mi?

Zu guter Letzt wird sich ein massiver Hemmschuh daraus ergeben, dass Sprache nicht wie Schrift ist. Schrift ist stets formal und durchdefiniert. Sprache hingegen hat Akzente, Dialekte, Soziolekte, eine bunte Vielfalt an Artikulationsmöglichkeiten. Kann es sich der Onlineshop erlauben, potenzielle Kunden zu astreinem Hochdeutsch zu zwingen, wenn eben dieser potenzielle Kunde eine Bestellung aufgeben will? “Klar”, könnte man jetzt sagen, aber am Ende ist dieser potenzielle Kunde vor seinem Rechner allein und ob er dann bestellt oder nicht, das sieht zunächst nur er selber. Ich denke eher, dass wir uns technologisch auf die vorhandenen Besonderheiten der Menschen einstellen müssen und nicht den Menschen ihre Besonderheiten wegen der Technologie abtrainieren sollten.

Du siehst, bis zum echten Sprachinterface ist es noch ein ganz weiter Weg. Die Assistenten, die du heute nutzt, haben mit jenen Interfaces der Zukunft kaum etwas zu tun.

Dieter Petereit

ist seit 1994 im Netz unterwegs, aber bereits seit über 30 Jahren in der IT daheim. Seit Anfang des neuen Jahrtausends schreibt er für diverse Medien, hauptsächlich zu den Themenfeldern Technik und Design. Man findet ihn auch auf Twitter und Google+.

Hinterlasse einen Kommentar

2 Kommentare auf "Design: Was für Sprach-Interfaces der Zukunft wichtig ist"

Benachrichtige mich zu:
avatar
Sortiert nach:   neueste | älteste | beste Bewertung
Torsten Landsiedel
Gast
Das benötigte Vorwissen, um einen echten, komplett freien Dialog mit einem Computer hinzubekommen ist gigantisch. Alle KI-Versuche kratzen daher bisher nur an der Oberfläche und werden dies auch noch sehr lange machen. Ich würde mich freuen, wenn Sprach-*Assistenzsysteme* viel häufiger Verwendung finden würden. Bei Netflix am Fernseher eine Suche mit der Fernbedienung eintippen ist UX-Wahnsinn. Warum nicht einfach auf ein Mikrofon-Icon klicken (oder meinetwegen auch “Hey, Netflix!” sagen, oder “Hey (Fernseher-Marke)” ) und schon kann ich per Sprache nach einem Schauspieler oder Titel suchen. Die Vorteile liegen auf der Hand: Wir haben ein deutlich reduziertes Set an Wörtern (Schauspieler, Filmtitel,… Read more »
wpDiscuz