„Wir stehen erst am Anfang der Voice-Revolution“ sagt Ralf Eggert

Der Entwickler Ralf Eggert hat sich mit seiner Agentur Travello auf die Entwicklung von Voice-Anwendungen spezialisiert. CMO.com/DE sprach mit Eggert über das Potenzial im Marketing, worauf es bei Alexa-Skills ankommt und wo die Reise mit Voice hingeht.

„Wir stehen erst am Anfang der Voice-Revolution“ sagt Ralf Eggert

Mit seiner ersten Programmierübung in Richtung Voice landete der Entwickler Ralf Eggert mit dem Skill „Empfangsdame“ auf Anhieb einen Hit: Schon im Mai 2017 lag der Skill auf Platz 1 in Deutschland. Eggert hat schon Ende der 80er Jahre mit dem Programmieren begonnen und wurde später selbständiger Web-Entwickler. Heute ist Eggert der Geschäftsführer der Agentur Travello, die sich auf die Entwicklung von Alexa-Skills spezialisiert hat. Aktuell arbeiten vier Entwickler an sechs Projekten in unterschiedlichen Phasen. Über mangelndes Interesse kann die Agentur nicht klagen – ganz im Gegenteil. Das Interesse bei den Kunden ist groß - und das ist auch unsere erste Frage: Wie steht es mit der Nachfrage nach Voice-Anwendungen?

Eggert: Die Anfragen steigen auf gutem Niveau. Anfang letzten Jahres hat es sich fast überschlagen, dann folgte etwas Ernüchterung. Seit Dezember geht es wieder bergauf. Einige Projekte ziehen sich auch lange hin, denn die Erfahrung hat gezeigt, dass Skills für Kunden sehr viel Zeit brauchen. Wenn wir eigene Skills bauen, wissen wir, was wir wollen. Viele sind interessiert, oft geht die Angebotsphase zügig. Bei größeren Unternehmen ziehen sich die Entscheidungsprozesse oft länger hin. Es ist ähnlich wie vor zehn bis fünfzehn Jahren mit den Smartphone Apps. Jeder wollte eine. Dann mussten die Leute lernen, dass Entwicklung Geld kostet. Inzwischen ist das alles klar, aber wir befinden uns in einer ähnlichen Lernphase.

CMO.com: Was ist das Spannende an Voice fürs Marketing?

Eggert: Voice ist ein neuer Baustein im Marketing. Für viele ist es ein Traum, in die Haushalte zu kommen – nicht nur als Sender wie beim TV, sondern auch als Empfänger. Bei einer TV-Werbung bekommt niemand mit, wenn die Leute schimpfen. Mit einem Skill ist es möglich, noch mehr auf die Nutzer zu hören. Das ist für viele sehr spannend da einzusteigen.

CMO.com: Welche Anwendungsmöglichkeiten fallen Dir spontan für Voice ein?

Eggert: Was im Moment vom Endkunden viel nachgefragt wird, ist der Smart Home Bereich. Bei den Skills sind es überwiegend Unterhaltung, Musik und Informationen. Musik läuft immer. Beim CD-Player muss man hingehen, wenn er zu laut spielt – das nervt. Per Stimme ist das Steuern von Musik viel einfacher. Im Unterhaltungsbereich werden Spiele, Quiz und auch Nonsens-Sachen gerne genutzt.

CMO.com: Ihr entwickelt aktuell Tina, eine Plattform für touristische Infos. Was ist dabei die Idee?

Eggert: Wir kommen aus einer Tourismus-Community und sind der Branche treu geblieben. Wir versuchen bei Tina unsere Leidenschaft für Touristik mit der für das neue Thema Voice zusammen zu bringen. Bei Hotels und Fremdenverkehrsämtern gibt es immer wieder Fragen, die stetig wiederholt werden. Tina kann als Skill as a Service viele wiederkehrende Fragen wie „Wann gibt es Frühstück?“ oder „Wo sind hier Sehenswürdigkeiten?“ beantworten.

CMO.com: Du hast mit dem Skill Empfangsdame gleich beim ersten Anlauf einen Hit gelandet. Was ist das Erfolgsrezept für gute Skills?

Eggert: Rund 30 Prozent der Arbeit bei komplexeren Skills sind die richtigen Vorüberlegungen. Einfache Grundideen lassen sich auch mal schnell umsetzen, wenn es komplexer wird, ist aber die Planung sehr wichtig. Wichtig ist es erst einmal zu verstehen, was die Intention der Kunden ist. Es gab auch schon Fälle wo ich von einer Skill-Entwicklung abrate - wenn es zum Beispiel nicht zum Geschäftsmodell passt. Wenn wir das in ein Konzept gegossen haben, geht es daran, das Voice User-Interface zu planen. Meistens testen wir die Interaktion erst einmal auf Papier. Hier kann der Kunde auch viel mithelfen. Wenn wir das haben, geht es erst an die Konfiguration und die Entwicklung.

CMO.com: Du bist Spezialist für Voice-Interfaces. Hast du spezielle Tipps für die User Experience mit Skills?

Eggert: Man kann es mit klassischen grafischen Oberflächen vergleichen. Wenn man eine Website benutzt, erwartet man gewisse Dinge wie ein Menü, das am besten immer gleich benannt ist und an der gleichen Stelle auftauchen sollte. Bei Sprache ist es so, dass jeder anders spricht. Man muss als Entwickler auf verschiedene Dinge auf der Eingabeseite sehr variabel reagieren. Ein einfaches „Ok“ kann 200 Varianten haben. Das ist die Herausforderung. Gleichzeitig soll man auch auf der Ausgabeseite variieren. Wenn man mit der immer gleichen Phrase Vorgänge bestätigt, wird es schnell langweilig. Man muss also bei den Rückmeldungen sehr viel variantenreicher arbeiten.

CMO.com: Wie sieht es auf der technischen Seite aus? Wie schnell müssen Skills zum Beispiel reagieren?

Eggert: Das ist ein Thema, auf das man als Entwickler oft wenig Einfluss darauf hat. Wir arbeiten gerade an einem Skill für ein Marktforschungsunternehmen. Hier gibt es die Schwierigkeit, dass wenn man beim Antworten eine Pause macht, der Skill sich nach einer Nachfrage dann auch abschaltet. Man muss also zum Beispiel auch auf Sprechpausen entsprechend reagieren. Das sind Dinge, die man nicht unbedingt erwartet, auf die man aber reagieren können muss.

CMO.com: Der Spezialfall Echo Show bietet neben Voice auch einen Touchscreen. Begrüßt du das als Entwickler?

Eggert: Das macht natürlich mehr Spaß. Sprache ist da immer noch das Hauptmedium nach dem Motto „Voice first“. Jetzt kann man Dinge machen, die für die Nutzer auch interessanter sind. Von der Entwicklung war es anfangs etwas kompliziert auf das Erscheinungsbild Einfluss zu nehmen. Mit der neuen APL (Alexa Presentation Language Anm. der Redaktion) kann man fast alles umsetzen. Das ist auch relevant für unser Touristik-Projekt, weil man visuell sehr viel machen kann, wie zum Beispiel Videos oder Diashows ausgeben. Es ist auch oft so, dass man bei der reinen Sprachausgabe nicht soviel unterbringen kann, wie man möchte. Da ist ein Display schon sehr spannend.

CMO.com: Wo geht die Reise mit Voice noch hin?

Eggert: Am Anfang, in den Siebzigern stand der Character-Mode mit Zeichen, dann kam in den 80ern die grafische Benutzeroberfläche, das Internet in den 90ern, dann Mobile und jetzt Voice. Jede Dekade hat ihre Revolution und wir stehen gerade am Anfang. Ich bin fest davon überzeugt, dass uns diese Technologie in vielen Bereichen beschäftigen wird. Eine Maus ist eigentlich nur eine Krücke. Spracheingabe ist – denkt man auch daran wie sich Science-Fiction Autoren bei Star Trek die Interaktion mit dem Computer vorgestellt haben – der natürliche Weg.