Dieser Beitrag von Werner Vogels, CTO bei Amazon.com, erschien zuerst bei der WirtschaftsWoche. Er schreibt in seiner Kolumne regelmäßig über relevante Fragen und Folgen der Digitalisierung.
„Es irrt der Mensch so lange er strebt.“ Der deutsche Dichterfürst Goethe wusste das schon vor über zweihundert Jahren. Heutzutage klingt das immer noch richtig, aber mit einem entscheidenden Unterschied: Das Streben alleine genügt nicht. Es geht darum, sich anzustrengen, schneller zu sein als die anderen. Und während grundsätzlich nichts falsch daran ist, Perfektion erreichen zu wollen, kann in der digitalen Welt niemand darauf warten, dass Produkte fast perfekt sind, bevor man sie seinen Kunden anbietet. Wer das tut, wird im Markt abgehängt.
Wenn wir also nicht auf Perfektion warten können, was sollten wir stattdessen tun? Ich glaube, wir müssen bei der Produktentwicklung intensiv experimentieren und gleichzeitig akzeptieren, dass manche Experimente fehlschlagen.
Jeder, der Managementgurus zugehört oder mit ihnen gearbeitet hat, kennt ihr Mantra: Fehler sind ein unverzichtbarer Teil des Fortschritts. Doch zwischen Theorie und Praxis tut sich oft eine große Lücke auf. Viele Menschen haben Spaß daran, zu experimentieren, und wollen aus Dingen, die falsch laufen, die richtigen Schlüsse ziehen. Im hektischen Tagesgeschäft bleibt dann aber häufig keine Zeit, wirklich über die Ursache eines Fehlers nachzudenken, und darüber, was man beim nächsten Mal anders machen sollte. Die Lösung liegt in einem systematischen Ansatz, der verhindert, dass Fehler sich wiederholen.
Von der Perfektion zur Antifragilität
Wollen wir herausfinden, wie das funktioniert, müssen wir zwei Arten von Fehlern unterscheiden, die in Unternehmen passieren können: Auf der einen Seite das Versagen von Technologie; auf der anderen Seite Fehlentscheidungen von Menschen. Das Gute ist: Wer die erste Kategorie, die Technologie, fest im Griff hat, profitiert davon in der zweiten, und fällt bessere Entscheidungen. Der Finanzmathematiker und Essayist Nassim Taleb hat hierzu interessante Gedanken formuliert: Er nutzt den Begriff „Antifragilität“. Das digitale Geschäft von heute arbeitet mit kleineren und häufigeren Produkteinführungen, die das Risiko reduzieren. Das bedeutet, dass die Technologien, die dieses neue Modell unterstützen, mehr als robust sein müssen. Sie müssen, „antifragil“ sein. Das bedeutet, dass Fehler sie nicht aus den Angeln heben. Tatsächlich können Krisen sie sogar noch stärker machen.
Das ist genau die Anforderung, die wir bei Amazon an unsere Systeme und Lösungen für Kunden stellen. Wir designen diese für die Zukunft. Sie müssen in der Lage sein, sich zu entwickeln und resistent gegen Ausfälle sein. Sie müssen leistungsfähiger werden und mit der Zeit immer reicher an Funktionalitäten. Denn wir lernen vom Feedback unserer Kunden und ebenso von den Ausfällen, die sie verkraften müssen, während sie die Systeme nutzen.
Ein Beispiel, eines deutschen Unternehmens das „antifragil“ geworden ist, ist HARTING – weltweit führender Anbieter im Bereich schwerer Steckverbindungen für Maschinen und Anlagen. Harting zeigt, wie sich das Thema „Qualitätsanspruch“ in der digitalen Welt weiterdenken lässt. Qualität und Vertrauen sind die wichtigsten Werte des Traditionsunternehmens. Bereits seit 2011 sind Industrie 4.0 und die digitale Transformation wichtige Unternehmensschwerpunkte. Auch wenn es anfangs schwer war – mittlerweile ist im Unternehmen klar, dass Fehler unvermeidlich sind. Daher wird die Softwareentwicklung auf agile Methoden umgestellt. Das Unternehmen geht den Weg des „minimum viable product“ und setzt bei der Software auf Microservices. Damit kann es leichter Dinge verwerfen und erneuern und ist dabei insgesamt schneller.
Das zeigt sich an der HARTING MICA: eine Edge Computing Lösung, die den digitalen Retrofit älterer Maschinen und Anlagen ermöglicht. Gehäuse und Hardware zeigen den HARTING-Perfektionsanspruch. Bei der Software hingegen ist „gut genug“ die Zielgröße, denn ein Microservice ist weder jemals fertig noch perfekt. Fehlentscheidungen und Fehler können sehr zügig behoben werden, Systeme können schneller reifen und sich dem Zustand der Antifragilität annähern. Wenn sich Anforderungen ändern, oder bessere Software-Technologien verfügbar werden, wird der jeweilige Microservice einfach verworfen und ein neuer erstellt. Damit gewinnt man an Geschwindigkeit und kann schnell und in überschaubarem Kostenrahmen alte Maschinen digitalisieren und an die Cloud anbinden.
Den Fehlern ihren Schrecken nehmen
Um antifragil, mehr als robust zu werden, wie HARTING und andere Unternehmen, muss man proaktiv nach den Schwachstellen in Systemen suchen und gleichzeitig experimentieren. In einem System, dass sich ständig weiterentwickeln soll, werden alle möglichen Fehler auftauchen, die nicht vorhersehbar sind – speziell wenn sich die Systeme in unbekannte Gebiete vorwagen Deshalb ist es hilfreich, Ausfälle zu provozieren, wie das bei Netflix Chaos Monkey der Fall ist.
Wer all das tut, objektiviert Dinge, die nicht funktionieren, und macht den Umgang mit ihnen zum Alltag. Sobald der Umgang mit Fehlern zur Routine geworden ist, wird sich auch niemand mehr scheuen, ein Risiko einzugehen, eine neue Idee für ein Produkt oder einen Service auszuprobieren, um zu sehen, wie Kunden damit umgehen. So kommen Unternehmen ganz schnell zu Lösungen, die in der Zukunft funktionieren. Bei Amazon haben wir eine Vorgehensweise entwickelt, systematisch und konstruktiv mit Fehlern umzugehen. Unsere „Cause of Error“-Methode verzichtet bewusst darauf, nach „Schuldigen“ zu suchen. Es geht darum, Lernerfahrungen zu dokumentieren und Aktionen abzuleiten, die am Ende die Verfügbarkeit der Systeme verbessern.
Von der Fehlerursache zur Innovation
Die Methode sieht zunächst vor, dass wir ein Problem so schnell wie möglich aus der Welt schaffen, um den Schaden zu begrenzen und das System so schnell wie möglich wieder zum Laufen zu bringen. Damit alleine sind wir jedoch nicht zufrieden. Wir versuchen, das Maximum an Erkenntnisgewinn aus einem Vorfall zu erzielen. Und dieser Prozess beginnt, sobald beim Kunden wieder alles läuft: Im Zentrum unserer Methode stehen 5-Warum-Fragen (5 Whys) Sie helfen uns, die Wurzel eines Problems zu ergründen (eine Herangehensweise, die ursprünglich aus der Qualitätssicherung in der Fertigung stammt).
Nehmen wir den Fall einer Website: Wir fragen: Warum war unsere Website letzten Freitag nicht erreichbar? Die Webserver haben Timeouts gemeldet. Warum gab es Timeouts? Weil unsere Webserver überlastet sind und den hohen Traffic nicht ausgehalten haben. Warum waren die Webserver überlastet? Weil wir nicht genügend Webserver haben, um alle Anfragen zu Stoßzeiten abzuarbeiten. Warum haben wir nicht genug Webserver? Weil wir bei der Planung mögliche Lastspitzen nicht berücksichtigt haben. Warum haben wir bei der Planung keine Lastspitzen berücksichtigt? Am Ende wissen wir genau, was passiert ist, welche Kunden betroffen waren. So können wir davon einen Aktionsplan ableiten, der dafür sorgt, dass genau dieser Fehler nicht noch einmal passiert.
Oft gelingt es uns sogar aus einer Fehleranalyse heraus bahnbrechende Innovationen anzustoßen, ganz im Sinne von Nassim Taleb. So ist die Lösung Amazon Auto Scaling entstanden, weil ein bestimmtes Kundensegment mit stark schwankenden Zugriffen auf ihrer Website zu kämpfen hatte. Wenn die Last für eine Webseite ansteigt, installiert Auto Scaling automatisch einen weiteren Webserver, um die gesteigerte Anzahl der Anfragen zu bedienen. Umgekehrt schaltet Auto Scaling nicht-benötigte Webserver ab, um Kosten zu sparen, wenn die Last wieder abfällt.
Wir lernen daraus, dass Unternehmen oberflächliche Erfolge kritisch durchleuchten müssen. Das gilt für die Weiterentwicklung von Systemen ebenso wie von Geschäftsmodellen. Wenn man in einem komplexen Umfeld agil bleiben will, sollte man diesen Weg beschreiten, auch wenn er anstrengend ist. Übertragen wir diese Erkenntnisse auf das Management, muss man sich drei Dinge vor Augen führen:
1. Nehmt es als gegeben hin, dass Fehler passieren
Jeff Bezos sagte einmal über Amazon: „Ich glaube, wir sind der beste Ort auf der Welt, um Fehler zu machen“. Eine solche Aussage ist es, die viele inspiriert, zu experimentieren, Fehler zu machen und sie in etwas Innovatives zu verwandeln. Was wir bei Amazon durch unsere Entwicklungsarbeit gelernt haben ist: Wir müssen herausfinden, was sich wirklich hinter einem Fehler verbirgt. Und: Man sollte seine Mitarbeiter dafür belohnen, dass sie Fehler aufspüren und sich aktiv mit ihnen auseinandersetzen. Einige unserer besten Produktideen sind so entstanden.
2. Findet Euch mit unvollständigen Informationen ab
Zur deutschen Tradition gehört die Gründlichkeit und Perfektion. In der digitalen Welt sollte man diese Prinzipien etwas aufweichen. Denn wenn sich Technologie schnell wandelt, müssen sich Unternehmen mit verändern. Entscheidungen sollten fallen, auch wenn Informationen nicht so vollständig vorliegen, wie man es gerne hätte. Jeff Bezos bezog sich genau darauf, als er im letzten Brief an die Amazon Aktionäre sagte, dass „die meisten Entscheidungen getroffen werden mit etwa 70% der Informationen, die man gerne gehabt hätte. Wer auf 90% wartet, wird vermutlich in den meisten Fällen zu langsam sein. Unabhängig davon müssen Unternehmen es schaffen, schlechte Entscheidungen schnell zu korrigieren. Wenn man gut darin ist, seinen Kurs zu korrigieren, sind Irrtümer weniger kostspielig, als man denkt – während zu langsam zu sein in jedem Fall sehr teuer kommt.“
3. Entwickelt eine Kultur des Lernens
Ich habe betont, wie wichtig es ist, dass Unternehmen einen systematischen Ansatz entwickeln, mit Fehlern umzugehen. Aber er wird nur funktionieren, wenn er Teil einer Unternehmenskultur geworden ist. Man muss die DNS der eigenen Organisation verstehen und wissen, worüber an der Basis gesprochen wird. Offen das Experimentieren in der Produktentwicklung zu propagieren und Leute dazu aufzufordern, sich mit Fehlern auseinander zu setzen, wird nur ein Lippenbekenntnis bleiben, wenn Mitarbeiter persönliche Nachteile befürchten müssen, sobald etwas misslingt. Es liegt an den Führungskräften, die Kultur des Experimentierens so zu fördern und auszugestalten, dass sie auch tatsächlich gelebt wird.
Was immer Unternehmen sich einfallen lassen, um systematisch aus Fehlern zu lernen: Es wird ihnen helfen, in der digitalen Welt zu bestehen. Und es wird ihnen den Freiraum und den Mut geben, ihre Systeme, Lösungen und Geschäftsmodelle auf ein neues Level zu heben.
Weitere Beiträge von Werner Vogels finden sie hier.