Verhalten und Nutzung
Das Thema ist mittlerweile ein alter Hut. Sprachassistenten. 1.000-mal berührt, 1.000-mal ist nix passiert. Jetzt hat es endlich Zoom gemacht.
In der Vergangenheit fragten Leute ihr Handy oder ihren Lautsprecher nach dem Wetter, ließen sich Witze erzählen oder versuchten, mit ihm zu flirten. Komplexere Anfragen endeten meist im Frust. „Entschuldigung, ich kann dir dabei leider nicht helfen.“ Sprachassistenten wurden schnell als Spielerei abgetan, die für einen größeren Nutzen oder gar eine Business-Anwendung nicht zu gebrauchen sind.
Durchbruch mit Anlauf
Doch erinnern wir uns einmal an die Einführung anderer großer Technologien zurück. Welche App war der Renner im Jahr 2008? Gewusst? Genau! Keine. Der App Store erschien erst Mitte des Jahres. Und die ersten richtig großen Apps waren das Feuerzeug auf dem iPhone, das virtuelle Bier zum Austrinken oder die Peitschen-App. Aus heutiger Sicht ein Witz. Dennoch zeigt es, dass man aus ersten Anwendungen nicht vorschnell über die Bedeutung einer aufkommenden Technologie urteilen sollte. Heute würde sicherlich niemand die wirtschaftliche Bedeutung des App Store oder Play Store (66 Mrd. Euro Umsatz in 2018) infrage stellen. Auch Alexa und Co. verdienen eine zweite Chance. Denn sie bieten inzwischen auch Privatanwendern einen echten Mehrwert.
Aktuell wird der Markt im Bereich der Privatanwender von den Branchengrößen Google, Apple, Amazon und Microsoft dominiert. Obwohl noch relativ häufig Klagen über Verständnisschwierigkeiten zu hören sind, geben rund 80 Prozent der Nutzer an, dass sie zufrieden mit ihrem digitalen Assistenten sind. Ein Grund dafür ist, dass die smarten Assistenten immer smarter werden. Und ihren Wissensschatz mit hoher Geschwindigkeit erweitern. Liegt der Hauptanwendungsbereich der meisten Nutzer heute noch bei der Suche nach kurzen allgemeinen Informationen, Produkten oder der Navigation, werden komplexere Anfragen wie ein Einkauf oder die Änderung einer Bestellung nur von einer kleinen Minderheit genutzt.
Einordnung der VUI in den Hypecycle
Das renommierte US-Marktforschungsunternehmen Gartner untersucht jährlich aufkommende Technologien und Mega-Trends in einem eigenen Fünf-Phasen-Modell. Eine neue Technologie stellt zunächst immer eine Innovation dar. Diese erreicht in der zweiten Phase den sogenannten Gipfel überzogener Erwartungen, um dann eine Phase der Desillusionierung zu durchlaufen. Phase vier dient der Aufklärung. In der abschließenden fünften Phase entfaltet die Technologie dann das Maximum ihrer Produktivität. Die amerikanischen Fachleute sehen Sprachassistenten aktuell am Beginn der dritten Phase und rechnen damit, dass sie in zwei bis fünf Jahren ihre vollständige Marktreife und damit auch das Maximum der Produktivität erreichen werden. Dazu passt auch, dass mehr als 80 Prozent der aktuellen Nutzer erst in den vergangenen 36 Monaten mit der Nutzung von Sprachassistenten begonnen haben. Wurden solche Assistenten 2015 noch von 390 Millionen Menschen weltweit genutzt, werden für das Jahr 2020 rund 2 Mrd. Nutzer prognostiziert. Das sind rund 30 Prozent der Weltbevölkerung.
The time is now
Aus Unternehmenssicht ist jetzt ein ziemlich guter Zeitpunkt, um sich mit dem Thema auseinanderzusetzen und tiefer einzusteigen. Schon heute erwartet mehr als die Hälfte aller Nutzer, dass sie ihre Lieblingsmarken in den nächsten Jahren per Voice-Assistant erreichen und mit ihnen interagieren können. Der Erwartungshorizont reicht dabei vom Suchen und Finden von Produktinformationen bis hin zu weiteren Produktvorschlägen oder Hilfestellung bei Fragen. Dieser Zug darf nicht verpasst werden.
Desktop – Mobile – Voice
Die letzten zwei Entwicklungsschritte auf dem Weg zum natürlichsten Interface der Welt – unsere Sprache – sind uns noch sehr bekannt. Zum einen gehört dazu die Desktop- Nutzung. Abgelöst wurde dieses Interface von der Mobile-Nutzung. Gemeint ist die Nutzung am heimischen PC seit Anfang der 90er und die Nutzung unterwegs ab ca. 2007.
Zwei generell unterschiedliche Anwendungsfälle mit ihren Eigenheiten. So war die letzte Umstellung auf ein mobiles Interface mit den Anforderungen verbunden, kleine Bildschirme zu unterstützen und diese zu berücksichtigen. Auch die Aufmerksamkeitsspanne ist mobil deutlich kürzer als an einem Desktop-Computer. So wurden Interfaces auf genau diese Anforderungen hin entwickelt und zugeschnitten. Der nächste logische Schritt ist nun die Anpassung an Voice User Interfaces. Die Schritte werden noch weiter verkürzt, um den User an sein Ziel zu führen. Zudem gibt es kein visuelles Interface mehr. Alles Irrelevante fällt weg.
Aktuelle Technologien
Welche Möglichkeiten und Voraussetzungen gibt es, den User möglichst schnell ans Ziel zu bringen? Ein kleiner Auszug.
Voice Commerce
Die Spitze und damit das Ziel einer langen Reise ist der Verkauf über die Sprache. Ein einfaches „Alexa, bestell mir ein neues T-Shirt“, und schon ist die Bestellung platziert. Amazon beansprucht diesen Verkaufskanal natürlich primär für sich. Über den Amazon Marketplace können aber auch andere Wettbewerber ihre Produkte anbieten. Weitaus besser ist jedoch die Integration von sogenannten „In-Skill-Purchases“ (ISPs) in den eigenen Skill. Damit sind sowohl digitale In-Skill-Produkte (Bonuslevel, Extra- Leben) zu monetarisieren als auch physische Produkte zu verkaufen (T-Shirt). Die ISPs sind noch recht neu und bieten Entwicklern die Möglichkeit, einmalige Käufe und Abos bis zu 99,99 Euro anzubieten. Darüber hinaus kann „Amazon Pay“ für Zahlungen innerhalb des eigenen Skills hinterlegt werden6. Auch diese technische Anbindung ist noch recht neu.
Monetarisierung bei Google
Googles „Actions“ – wie sie für den Google-Assistenten heißen – können ebenfalls seit Ende 2018 (US-Start) Transaktionen über die Sprache ausführen. In Deutschland steht ein Marktstart dieses Features noch aus.
Doch auch hier lohnt sich ein Vergleich mit den Anfängen der App Stores: 2008 gelauncht, gab es erst 2009 die Möglichkeit der In-App-Käufe und erst ab 2011 die Abo-Funktion.
Insofern sind die Schritte und die Geschwindigkeit, mit der die großen Anbieter von Sprachassistenten den Markt abdecken, noch schneller verfügbar als bei der Entstehung von Smartphone-Apps. Die technischen Voraussetzungen für die Bereitstellung von kostenpflichtigen Inhalten und Produkten sind geschaffen. Es ist an der Zeit, mit digitalen Sprachassistenten und ihren Nutzern zu lernen und vor allem zu wachsen.
Duplex
Eine von Google bereits 2018 auf der hauseigenen Konferenz i/O vorgestellte Technik nennt sich „Duplex“. Diese KI-Ergänzung zum Google Assistant ist unter anderem in der Lage, Restaurant-Reservierungen zu tätigen. Dabei wird dem Assistant per Google Home oder Smartphone mitgeteilt, wo, wann und für wie viele Personen es zu reservieren gilt. Dann baut Google Duplex einen realen Telefonanruf zu dem Restaurant auf und klärt die Details. Auch auf Rückfragen seitens des Restaurants oder Eventualitäten ist Duplex vorbereitet: So wird der Nutzer meist schon bei der Buchung nach einem alternativen Zeitfenster gefragt. Oder nach alternativer Küche. So kann Duplex die Aufgabe erfüllen.
Bei dem Anruf ist die Sprachausgabe des Assistenten nicht mehr von einem echten Menschen zu unterscheiden. Ist die Reservierung per Telefon abgeschlossen, gibt der Assistent den Status an den User zurück. So erhofft sich Google Märkte zu erschließen, die noch keine digitale Anbindung ihres Portfolios haben oder planen. Wie der kleine Friseursalon um die Ecke. Die Möglichkeiten für die Nutzer der Voice User Interfaces sind noch ungleich größer. Der Einsatz der Technologie beschränkt sich jedoch auch hier zunächst auf den US-amerikanischen Markt.
Nichts dem Zufall überlassen
Eher früher als später ist es daher für SEO- und Marketingagenturen unabdingbar, Websites nicht nur für die Textsuche zu optimieren, sondern sie auch mit den Informationen zu versorgen, die sie für die Duplex- Aktivierung benötigen. Dazu gehört es, Google-My- Business-Daten zu vervollständigen, anstatt sich auf Vorschläge von Nutzern für Öffnungszeiten zu verlassen. Diese und andere Daten werden oben in den Suchergebnissen angezeigt und helfen Duplex, so viele Informationen wie möglich für die Anrufe auszuwerten und zu verwenden.
Auch wenn die Reservierung über Voice Assistant noch nicht wirklich gezündet hat, sollte es im Interesse der Unternehmen liegen, sich im Kontext einer verstärkten Kundenorientierung bei Produkten und Dienstleistungen an die Nutzer anzupassen. Immerhin setzen diese ihre Assistenten bereits für die Suche ein. Und erwarten, dass die digitalen Helfer künftig nicht nur das Licht im Smart Home ein- und ausschalten, sondern zusätzliche Aufgaben übernehmen. Zu diesem Zeitpunkt sollten die Websites optimiert sein, damit Duplex bei „Buche mir einen Tisch bei einem griechischen Restaurant in meiner Nähe“ nicht immer die Konkurrenz anruft.
Earables
Längst nicht mehr finden Alexa, Google Assistant, Siri und Co. nur auf für sie geschaffenen Devices statt. Amazon beispielsweise macht es Produzenten sehr einfach, den Assistenten zu integrieren. So ist Alexa längst auf Smartphones, Fernsehern, Uhren, Kühlschränken aktiv ... und eben in Kopfhörern.
Alleskönner im Ohr
Kopfhörer sind nicht nur einfach eine Technologie. Sie sind ein kultureller Wandel. Gerade von der jungen Generation ständig getragen, trumpfen sie mit immer neuen Raffinessen wie Noise Canceling, Wireless und vielem mehr auf. Doch damit ist das Ende der Fahnenstange noch lange nicht erreicht. Erst kürzlich wurde das Apple-Patent für eine Gestensteuerung von Kopfhörern bekannt. Der ständige Kontakt mit der Haut im Ohr wird bald genutzt, um Gesundheitsdaten zu erheben. Die Körpertemperatur lässt sich im Ohr ohnehin sehr gut messen. Die Venenstruktur im Ohr ist so einzigartig wie der Fingerabdruck und eignet sich daher zur biometrischen Identifizierung. Puls und Sauerstoffsättigung des Blutes können ebenfalls bestimmt werden. Kurzum: Der wahre Platz eines jeden Voice User Interfaces ist der Kopfhörer. Doch wer ist die Zielgruppe?
Dazu schreibt schon der „Spiegel“-Kolumnist Sascha Lobo ganz treffend: „Die größte Kulturleistung der Generation Z mag der offensive Versuch der Rettung des Klimas sein, die größte Kulturleistung der Millennials ist die Unerbittlichkeit, mit der sie Kopfhörer in die Selbstverständlichkeit des Alltags hineingezwungen haben.“
Amazon brachte am 30. Oktober 2019 seine ersten Kopfhörer mit dem Assistenten raus. Apple zog mit den Nachfolgern der EarPods nach. Wenn die technologischen Möglichkeiten erst geschaffen sind, wird der wahre Durchbruch der Sprachassistenten nicht mehr aufzuhalten sein.
Fazit
Wir leben in einer Welt, in der Geschwindigkeit, Effizienz und Bequemlichkeit aktuell an erster Stelle stehen. Vielleicht noch nicht in allen Teilen, auf jeden Fall aber in weiten Teilen Nordamerikas und Asiens.
Sprachassistenten und deren KI befeuern diesen Grundgedanken weiter und werden unser Handeln in einer Weise beeinflussen, wie es sich viele heute noch nicht vorstellen können.
Umdenken im Produktdesign
Voice ist nicht nur ein neues Interface, sondern bringt ein völlig neues Ökosystem mit sich und erfordert daher ein Umdenken in Bezug auf Produktdesign und -beschreibung. Check-out-Prozesse im Web sind perfektioniert und gelernt. Bei einer rein sprachbasierten Interaktion fallen viele Vorteile wie visuelle Anker einfach weg.
Das Kaufen über die Sprache ist nur dann schneller, einfacher und bequemer, wenn wir perfekt spezifizierte Produkte haben und einfache Dialoge formulieren, die das Versprechen des Produkts in einem einzigen Satz demonstrieren. Voice User Interfaces werden in verschiedensten Formen und Produkten zu finden sein und nicht nur als weiterer Marketing-Gimmick daherkommen. Eine erfolgreiche Implementierung im Haushalt, in der Kleidung oder im Bereich der Mobilität wird dann erfolgen, wenn der Kunde auch einen weiteren Mehrwert erfährt. Die KI, die hinter dieser Technologie und der damit verbunden Spracherkennung steht, greift mit jedem Tag auf eine exponenziell wachsende Basis zurück und wird auch im noch rückständigen deutschsprachigen Raum mit rasenden Schritten besser.
Mehr Akzeptanz
Mit diesem technischen Fortschritt werden auch die Hemmnisse zur Nutzung solcher Technologien fallen. Warum sollte man schließlich noch auf einer Tastatur tippen, wenn man für die gleiche Anwendung auch sprechen könnte? Solange es noch keine Technologie gibt, die unsere Gedanken ausliest und verbreitet, bevor wir sie ausgesprochen haben, wird unsere Sprache das bequemste und schnellste Mittel sein, sich mitzuteilen. Sie schafft uns die Freiräume, die eine sich immer schneller drehende Welt verlangt. Es ist und bleibt nun mal das natürlichste Interface der Welt. Unsere Sprache.
Quellen:
Investor‘s Business Daily. (2017). Combined global Apple App Store and Google Play app revenue from 2016 to 2018 (in billion U.S. dollars). Statista. Statista Inc.. Accessed: October 15, 2019.
Bingads report 2019, S. 21, S 37
Heiß auf Insider-Infos?
Immer up to date: Unser Newsletter versorgt dich einmal monatlich mit brandneuen Trends und Innovationen aus der Kommunikationswelt.