Schön war er nicht, dieser Audrey, in den USA der 1950er Jahre. Beinahe zwei Meter groß, vollgestopft mit Relais und Schaltkreisen, getrieben von einem immensen Hunger nach Strom. Nur zehn Zahlen konnte Audrey verstehen, von null bis neun, wenn er die Stimme des Sprechers kannte und dieser lange Pausen zwischen den einzelnen Ziffern einhielt. Einer seiner Erben im Reich der Sprachcomputer, Amazons digitaler Assistent „Echo“, ist letzte Woche in Deutschland auf den Markt gekommen – ein 23 Zentimeter hoher Zylinder, der den Traum von Audreys Erfinder weiter entwickelt hat: Mensch und Maschine über Sprache kommunizieren zu lassen. Noch ist das Gerät nur per Einladung verfügbar, und aufgrund der großen Nachfrage dauert es in der Regel eine Weile, bis Kunden tatsächlich bestellen können.
Von den ersten Versuchen der Spracherkennung am Murray Hill in New Jersey bis hin zur Fertigstellung des Echos war es ein langer Weg. Gegangen sind ihn Wissenschaftler, Pioniere auf ihrem Gebiet, die daran geglaubt haben, dass man Lochkarten, Tastaturen, Mäuse und schließlich Touchscreens irgendwann nicht mehr benötigen würde.
Dieses große Ziel forderte zu Beginn der Entwicklungen jedoch vor allem eins: Geduld. In den zehn Jahren von Audreys Entstehung 1952 bis hin zur 1962 präsentierten „Shoebox“ von IBM schafften es die Forscher gerade einmal, das Verständnis von zehn Zahlen auf 16 Wörter zu erweitern. Alleine der letzte Satz dieses Blogposts hat doppelt so viele.
Auch in den 1970er Jahren forschten Statistiker, Mathematiker und immer mehr Informatiker weit ab vom öffentlichen Interesse, der Durchbruch der Sprachtechnologie schien aber entfernter denn je. Ein System des amerikanischen Verteidigungsministeriums brachte es auf etwas mehr als 1000 Wörter. In beinahe 25 Jahren schafften es die Wissenschaftler also, einem Computer das Vokabular eines Dreijährigen beizubringen, vom Sprechen ganz zu schweigen.
Erst in den 1990er Jahren nahmen die Entwicklungen durch schnellere Prozessoren und größere Speicher wieder Fahrt auf – und auch durch das sogenannte „Hidden Markov-Modell“. Bis heute setzen Sprachtechnologien wie Apples Siri oder Amazons Alexa, die Echo zu Grunde liegt, auf diese Lösung: Die aufgezeichneten Schallwellen werden dabei in gleichgroße Stücke zerteilt und verglichen. Danach werden die einzelnen Teile mit einer Datenbank abgeglichen und das Wort – im Idealfall – erkannt.
Für den Großteil der Bevölkerung blieben verstehende Computer trotzdem auch in den 1990er Jahren noch Science-Fiction. Computer-Tower, Tastaturen und Mäuse zogen in Häuser und Wohnungen ein, während erste Spracherkennungssysteme meist nur durch ihren Preis auf sich aufmerksam: mehrere tausend Dollar etwa für ein Programm, das nur Einzelworte erkannte, da es Pausen zwischen Worten nicht verarbeiten konnte.
Inzwischen sind moderne Spracherkennungssysteme wie die von Apple, Google und Amazon mit Servern verbunden. Anfangs taten sie sich oft noch schwer, Dialekte zu erkennen – doch die Innovationen schreiten rasant voran. Amazon etwa entwickelte ein eigenes Mikrofonsystem, dass verschiedene Aufnahmen kombinierte, um Stimmen selbst bei laufender Musik oder aus einem anderen Raum verstehen zu können. Durch die Fähigkeit, einmal Verstandenes auch für andere Abfragen zu verwenden, ist es dem System möglich, Dialekte nativ zu „erlernen“.
Inzwischen kann der Echo Fußballergebnisse heraussuchen, über das Wetter berichten, Musik abspielen oder ein Taxi bestellen – „Schatz, wir müssen reden!“ titelte folgerichtig „Die Welt“ zum Launch des Geräts in Deutschland.
Spracherkennungs-Forscher wissen: Obgleich schon lange an der Technologie gearbeitet wird, lernen die Systeme stets weiter. Die Träume der Audrey-Erfinder aber, so lässt sich vermuten, übertrifft die heutige Technologie bereits.