Eine Lektüre, die richtig Spaß macht und zugleich ausgesprochen lehrreich ist. Das Buch arbeitet nicht nur heraus, was erfolgreiche Prognostiker auszeichnet, es zeigt auch, wie man selbst lernen kann, zu wesentlich besseren Vorhersagen zu kommen.
"Superforecasting" klingt etwas reißerisch – aber dieses Buch ist nicht reißerisch, es ist nur ausgezeichnet geschrieben, zugleich aber wissenschaftlich fundiert. Für die sprachliche Aufbereitung zeichnet wohl vor allem der Koautor und Journalist Dan Gardner verantwortlich, für die "evidenzbasierten" Inhalte Philip E. Tetlock, ein Psychologie-Professor an der Unversity of Pennsylvania, der für eine Reihe von bahnbrechenden Forschungsprojekten in der Prognoseforschung verantwortlich zeichnet und hier über die gewonnenen Erkenntnisse berichtet.
Seit 2011 leitet Tetlock zusammen mit seiner Frau und Forschungspartnerin Barbara Mellers das "Good Judgement Project", das nicht nur darauf zielt, die Qualität von politischen und gesellschaftlichen Vorhersagen empirisch zu überprüfen, sondern auch, sie zu verbessern. Es wird interessanterweise von den amerikanischen Geheimdiensten finanziert, obwohl die damit das Risiko eingehen, mit ihrem großen Apparat von "Laien" blamiert zu werden.
Überprüfung der Bewährung unüblich
Die Autoren gehen der Frage nach, was geopolitische und ökonomische Vorhersagen taugen, ob es "Superforecaster" gibt und welche Ansatzpunkte zu Verfügung stehen, um Prognosen systematisch zu verbessern. Was sie darüber schreiben, kann man nicht nur interessiert zur Kenntnis nehmen, man kann es auch nutzen, um die Qualität der eigenen Vorhersagen systematisch zu verbessern.
Im Anhang bieten sie sogar auf achteinhalb Seiten "Ten Commandments for Aspiring Superforecasters" an, die empirisch gesichert die Qualität der eigenen Vorhersagen um 10 Prozent verbessert. Das klingt nicht nach viel, aber erstens ist es ein erstaunlicher Effekt für die Lektüre achteinhalb Seiten, und zweitens würde es zum Beispiel bei Aktienanlagen reichen, um den Markt – und die meisten professionellen Fondsmanager – zu schlagen, von aufgeregten Laien ganz zu schweigen.
Für mich dockt dieses Buch an meine Studienzeit an, genauer an die ob ihrer mathematischen Ableitungen gefürchteten Diagnostik-Vorlesungen von Professor Jan Drösler. Der pflegte zu betonen, ihn würde viel weniger der Wetterbericht interessieren als endlich einmal zu erfahren, ob die darin gemachten Vorhersagen tatsächlich eingetreten seien. Daraus habe ich fürs Leben gelernt, dass Vorhersagen wenig wert sind, solange man nichts über die Trefferquote des jeweiligen Prognostikers weiß.
Tetlock stößt ins gleiche Horn – und merkt zugleich an, dass die wenigsten veröffentlichten Prognosen so formuliert sind, dass eine Überprüfung überhaupt möglich ist. So klingt es sehr konkret und greifbar, wenn renommierte Ökonomen etwa vor einem Anstieg der Inflation oder vor einer drohenden Schuldenkrise warnen, aber bei genauerem Hinsehen stellt sich heraus, dass in aller Regel weder ein "Messzeitpunkt" angegeben ist noch geklärt ist, was genau mit einem "Anstieg der Inflation" oder einer "Schuldenkrise" gemeint war.
Und zu allem Überfluss war die vermeintliche Prognose ja nur eine "Warnung" vor einem drohenden Risiko, nicht eine definitive Vorhersage des Eintritts. Aus der Tatsache, dass das, wovor die Experten gewarnt haben, nicht eingetreten ist, folgt also keinesfalls, dass sie sich geirrt haben. Ganz Schlaue (oder Dreiste) werden sogar behaupten, gerade die Tatsache, dass sie vor diesen Risiken gewarnt haben, habe dazu beigetragen, dass sie nicht eingetreten seien.
Das scheint aber auch niemanden zu stören – ich habe jedenfalls noch nie erlebt, dass eine beherzte Moderatorin einen jener "Talking Heads" angesichts seiner im Brustton der Überzeugung gemachten Prognosen fragt, wie es denn um die Bewährung seiner früheren Vorhersagen stünde und ob er dazu unabhängige Analysen vorlegen könne. Auch die neuen Prognosen legt sich kaum jemand auf Wiedervorlage, um deren Treffsicherheit zu überprüfen. Stattdessen bittet man die mutmaßlichen Experten ein paar Monate später um eine neue Prognose.
Unterschiedliche Funktionen von Prognosen
Tetlock und Gardner räumen hier mit einem verbreiteten Irrtum auf, dem zugegebenermaßen auch ich aufgesessen bin, nämlich, dass es bei Vorhersagen immer darum gehe, etwas vorherzusagen, und zwar mit möglichst hoher Genauigkeit. Das ist naheliegend, einleuchtend und falsch: "You might think that forecasting is to foresee the future accurately, but that's often not the goal, or at least not the sole goal. Sometimes forecasts are meant to entertain. (…) Sometimes forecasts are used to advance political agendas and galvanize action (...) And some forecasts are meant to comfort." (S. 15)
Wenn Prognosen primär der Unterhaltung dienen, findet eine Selektion nicht nach der Prognosegüte, sondern nach dem Unterhaltungswert statt. Das verlangt vor allem nach einem überzeugendem Auftreten: Gefragt sind dann "Experten" (oder Experten-Imitatoren), denen jeder Zweifel fremd ist und die mit unverschuldetem Selbstvertrauen und mit hoher Inbrunst darlegen und begründen, wie die Zukunft werden wird. (Und die dabei sorgfältig darauf achten, nicht so konkret zu werden, dass man sie damit später konfrontieren könnte.)
Diese unerschütterliche Gewissheit kommt gut an und wirkt ungeheuer suggestiv – und ist, wie sich später herausstellt, das genaue Gegenteil davon, wie sich gute Prognostiker und insbesondere Tetlocks Superforecaster verhalten: Die sind immer bemüht, nicht nur die Argumente zu sehen, die für ihre Prognose sprechen, sondern auch die Gegengründe und möglichen Risiken. Entsprechend ist auch ihr Auftreten weit weniger von unerschütterlicher Gewissheit geprägt – sie sind ständig am Abwägen zwischen Einerseits und Andererseits. Mit anderen Worten, wenig suggestiv, keine guten Entertainer.
Andere Prognosen dienen dazu, Einfluss zu nehmen und Druck zu machen. Die Aussage meiner Mutter "Wenn du nichts lernst, dann wirst du eben Straßenkehrer!" war keine – wie sich inzwischen herausgestellt hat, falsche – Vorhersage, sondern ein (vergeblicher) Versuch, mich zum Lernen zu bewegen. In gleicher Weise ist "Wenn wir die Grenzen nicht dicht machen, werden wir von Afrikanern überrollt" für manche Menschen zwar vielleicht eine Angstvision, aber dennoch weit mehr ein Appell als eine Prognose, deren Wahrheitsgehalt später empirisch überprüft werden kann und soll.
Auch bei Wahlprognosen kann man sich nicht sicher sein, ob sie tatsächlich das Wahlergebnis vorhersagen wollen oder ob sie primär das Ziel haben, das Wahlverhalten zu beeinflussen, etwa, das gegnerische Lager in Sicherheit zu wiegen oder das eigene zu mobilisieren. Man tut also gut daran, sich von der naiven Annahme zu lösen, dass Prognosen immer der Prognose dienen, und sich in jedem Einzelfall die Frage nach dem wirklichen Zweck des Unterfangens zu stellen.
Ein rigoroser Prozess der empirischen Überprüfung
Trotzdem gibt es auch eine Restmenge von Vorhersagen, bei denen es tatsächlich darum geht, künftige Entwicklungen oder Ereignisse vorherzusagen, und zwar mit möglichst hoher Treffsicherheit. Diesem Sonderfall ist das vorliegende Buch gewidmet. Der Schlüssel dazu ist, Pseudo-Wissen zu überwinden und einen rigorosen Prozess der empirischen Überprüfung gemachter Prognosen zu installieren.
Der Grund, weshalb die Medizin von der Antike bis in die frühe Neuzeit kaum vorangekommen ist, und weshalb die Ökonomie bis heute kaum vorankommt, liegt darin dass sie sich fast ausschließlich auf die Erfahrung und das Urteilsvermögen ihrer Autoritäten verlassen haben – oder, so die Überschrift des zweiten Kapitels, auf "Illusions of Knowledge".
Allzu lange hat man die unerschütterliche Überzeugung erfahrener Praktiker und akademischer Autoritäten mit einem Wahrheitsbeweis verwechselt, ohne zu erkennen, dass eine unerschütterliche Gewissheit lediglich belegt, dass deren Inhaber nicht mehr gewillt oder imstande ist, seine Überzeugungen infrage zu stellen. Im Sinne Daniel Kahnemans hat er in seinem Kopf eine "kohärente Story" konstruiert – aber daraus folgt nicht, das dieses Modell die Realität treffend beschreibt. Der Fortschritt aber lebt vom Zweifel, nicht von der Gewissheit.
Der entscheidende Durchbruch gelang der Medizin erst, als sie es wagte, die "klinische Erfahrung" ihrer Autoritäten zu hinterfragen und auf empirischen Belegen zu bestehen: der entscheidende Schritt zur evidenzbasierten Medizin. (Die Ökonomie hat diesen Schritt noch vor sich – aber sie macht bislang keinerlei Anstalten, ihn zu gehen.) Ohne kritischen Blick auf die Daten kommt man leicht zu so zirkulären Schlüssen wie der berühmte antike Arzt Galen: "All who drink of this medicament recover in a short time, except those whom is does not help, who all die. It is obvious, therefore, that it fails only in incurable cases." (S. 27)
Mut zur Nachprüfbarkeit – und zum Nachprüfen
Der entscheidende Schritt zu einem evidenzbasierten Vorgehen ist "Keeping Score", wie das umfangreiche dritte Kapitel überschrieben ist: Man muss da Realität eine faire Chance gegen die eigenen Annahmen geben, und das setzt zweitens voraus, dass man seine Prognosen nachhält, und erstens, dass man sie so formuliert, dass sie überhaupt überprüfbar sind.
Hier scheidet sich die Spreu vom Weizen: Wer vom Prognose-Geschäft partizipieren will, wäre ausgesprochen unklug, wenn sie/er seine Vorhersagen so formulierte, dass sie überprüfbar sind. Wer dagegen tatsächlich an der Qualität ihrer bzw. seiner Vorhersagen arbeiten und sie verbessern möchte, hat dazu nur die Chance, wenn er sich diesem iterativen und zuweilen durchaus schmerzlichen, weil von vielen Rückschlägen begleiteten Lernprozess stellt: Sie/er muss es wagen, ihre bzw. seine Vorhersagen so zu formulieren, dass sichtbar wird, wenn sie daneben lagen. Auch wenn das als peinlich empfunden werden kann.
Und wenn daraus ein wirklicher Lernprozess werden soll, muss sie/er überdies bereit und in der Lage sein, ihre bzw. seine Fehleinschätzung nicht nur zu "erklären" und zu rechtfertigen, sondern mutig und ohne gekränkten Stolz den Gründen ihrer bzw. seiner Fehleinschätzung nachzugehen. Und daraus sinnvolle nicht-defensive Schlussfolgerungen abzuleiten. Das ist nicht nur in der Sache, sondern auch emotional eine radikale Abkehr von den "Halbgöttern in Weiß" (bzw. denen in Anzügen).
Zu Prognosen gehören zwangsläufig auch Schätzungen, weil sich nicht jede Vorhersage in das digitale Raster "wird eintreten" oder "wird nicht eintreten" einordnen lässt. Das macht es wiederum erforderlich, vage sprachliche Ausdrücke wie "Es besteht die Gefahr, dass …" in quantitative Werte zu übersetzen. Denn umgangssprachliche Wahrscheinlichkeitsschätzungen wie "wahrscheinlich", "möglich", "vielleicht" wirken klarer als sie sind, sie lassen einen viel zu großen Interpretationsspielraum: "People attach very different meanings to probabilistic language like 'could', 'might', and 'likely'." (S. 58)
Kalibrierung und Trennschärfe
Das nächste Problem taucht auf, wenn es um die Bewertung probabilistischer Vorhersagen geht: Wenn der Wetterbericht eine Regenwahrscheinlichkeit von 30 Prozent vorhergesagt hat und es danach geregnet hat, war die Vorhersage dann falsch? Ohne Zweifel war sie, wie es die Autoren allerliebst formulieren, "on the wrong side of maybe" (S. 57), aber immerhin hat sie ja eine 30%-Wahrscheinlichkeit für Regen genannt.
Um sie also als falsch einzustufen, müsste man also entweder die gleiche Wettersituation viele Male ablaufen lassen, was auf praktische Schwierigkeiten stößt, oder man müsste die Regenhäufigkeit über eine ausreichend große Zahl von 30%-Vorhersagen ermitteln. Diese Treffsicherheitsbestimmung bezeichnet man als Kalibrierung der Vorhersage (calibration).
Doch eine treffsichere Vorhersage ist nicht automatisch eine nützliche Prognose: "Könnte passieren" ist selten falsch, aber ohne jeden praktischen Nutzwert. Nützlich sind nur Vorhersagen mit einer hohen Trennschärfe (resolution) – idealerweise in Form einer deterministisch Aussage "wird definitiv geschehen" oder "wird keinesfalls geschehen". Perfekte Vorhersagen auf der Basis von gottähnlichem Allwissen wären also nicht nur hundertprozentig treffsicher, sondern auch glasklar.
Aus diesen beiden Merkmalen lässt sich für die Güte von Vorhersagen mathematisch ein sogenannter "Brier Score" ermitteln, benannt nach dessen Erfinder Glenn W. Brier: "In effect, Brier scores measure the distance between what you forecast and what actually happened. (…) Perfection is 0. A hedged fifty-fifty call, or random guessing in the aggregate, will produce a Brier score of 0.5. A forecast that is wrong to the greatest possible extent (…) scores a disastrous 2.0, as far from The Truth as it is possible to get." (S. 64)
Damit steht ein objektiver Maßstab zu Verfügung, was sie viel wert ist, aber trotzdem noch kein vollständiges Bild der Prognosequalität liefert. Denn manchmal ist es möglich, mit relativ simplen Regeln den Zufall zu schlagen – in einer Gegend mit sehr stabilem Wetter etwa mit der Regel, immer das Wetter des Vortags oder das für die Jahreszeit typische Wetter vorherzusagen. Eine wirklich gute Vorhersage muss also auch besser sein als solche simplen Regeln – und sie sollte schließlich auch besser sein als andere Prognosen zum selben Thema, genauer, besser als der Durchschnitt aller Prognosen.
Entscheidend ist nicht, was man denkt, sondern wie man denkt
Eine erste empirische Untersuchung zu "Expert Political Judgment" begann Tetlock bereits Mitte der achtziger Jahre. Solche Untersuchungen sind zeitraubend: Wenn sie, wie im vorliegenden Fall, eine Prognose-Zeitspanne von ein bis zehn Jahren umfassen, dann muss man ja den maximalen Zeitraum abwarten, bevor man die Trefferquote bestimmen kann.
Tetlocks damalige Teilnehmer waren ernstzunehmende Profis: Experten, zu deren Job es gehörte, politische Ereignisse und ökonomische Trends zu analysieren. Tetlock musste ihnen Anonymität garantieren, weil wenige bereit waren, ihre professionelle Reputation ohne Gegenleistung aus Spiel zu setzen.
Wie sich herausstellte, hatten viele der Prognostiker gut daran getan, auf Anonymität zu bestehen, denn ein größerer Teil von ihnen Schnitt nicht besser ab als der berühmte Wurfpfeil-werfende Schimpanse – zum Teil sogar schlechter. Die zweite Gruppe schlug den Schimpansen, allerdings nicht mit einem wirkliche eindrucksvollen Abstand, und hatte aus Tetlocks Sicht daher ebenfalls Grund zur Bescheidenheit.
Trotzdem machte er sich auf die Suche nach den Gründen für die Differenz: "So why did one group do better than the other? It wasn't whether they had PhDs or access to classified information. Nor was it what they thought – whether they were liberals or conservatives, optimists or pessimists. The critical factor was how they thought." (S. 68)
Füchse gegen Igel
Die eine Gruppe der Experten hatte ihr Denken um große Ideen herum organisiert, und zwar um ganz unterschiedliche, von apokalyptischen bis hin zu innovationseuphorischen und von sozialistischen bis hin zu erzkapitalistischen. Die andere Gruppe bevorzugte einen pragmatischen Ansatz und verwendete unterschiedlichste analytische Methoden, wobei ihre Methodenwahl vom jeweiligen Gegenstand abhing.
Letztere wechselten häufig die gedankliche Richtung und verwendeten oft Begriffe wie "jedoch", "aber", "obwohl" und "andererseits". Sie sprachen über Möglichkeiten und Wahrscheinlichkeiten, nicht über Gewissheiten. Und obwohl niemand gerne zugibt, dass er sich geirrt hat, waren sie eher dazu bereit, dies einzuräumen und ihre Richtung zu ändern.
Tetlock erinnert dies an den berühmten Satz von Archilochos: "Der Fuchs weiß viele Sachen, aber der Igel weiß eine große Sache." A priori ist schwer zu sagen, welcher Ansatz der aussichtsreichere ist, empirisch sehr wohl: "Foxes beat hedgehogs on both calibration and resolution. Foxes had real foresight. Hedgehogs didn't." (S. 69) Mit anderen Worten, die "große Idee" der Igel verbessert ihre Prognosen nicht, sie verschlechtert sie – mit der spektakulären Folge, dass ihre Vorhersagen auf den Gebieten, auf denen sie sich am genauesten auskennen, am schlechtesten sind.
Zu allem Übel fand Tetlock auch noch "an inverse correlation between fame and accuracy: the more famous an expert was, the less accurate he was." (S. 72) Wer schon immer Zweifel an dem Weitblick von Experten hatte, darf sich also jetzt empirisch bestätigt fühlen. Auch Christian Lindners Postulat, den Klimaschutz den Profis zu überlassen, gewinnt dadurch nicht unbedingt an Plausibilität.
Vielfältige Perspektiven werden einer komplexen Realität besser gerecht als eine einzige, noch so gescheite Sichtweise. Deshalb empfehlen die Autoren angehenden Superforecastern, ein "Libellenauge" (dragonfly eye) zu entwickeln, mit dem sie die unterschiedlichsten Eindrücke aufnehmen und aggregieren. Wenn jede Perspektive auch nur ein Fünkchen Wahrheit enthält, kann daraus in der Aggregation ein beeindruckend genaues Bild entstehen.
Ein Prognose-Wettbewerb – gewonnen
Eine der folgenschwersten Fehleinschätzungen der neueren Weltgeschichte war die, dass der Irak Massenvernichtungswaffen besäße. Im Zuge der Aufarbeitung dieses Schocks entstand 2006 die "Intelligence Advanced Research Project Activity" (IARPA), eine wissenschaftliche Überprüfung der prognostischen Verfahren der amerikanischen Geheimdienste.
Sie kam zu dem Schluss, die Geheimdienste "should not rely on analytical methods that violate well-documented behavioral principles or that have no evidence of efficacy beyond their intuitive appeal. [They should] rigorously test current and proposed methods under conditions that are as realistic as possible. Such an evidence-based approach to analysis will promote the continuous learning needed to keep [them] smarter and more agile than the nation's adversaries." (S. 86)
Zu Tetlocks freudiger Überraschung wurde eine der brisantesten Empfehlungen der Untersuchung tatsächlich umgesetzt, nämlich ein Prognosewettbewerb konkurrierender methodischer Ansätze. Er beteiligte sich daran mit seinem Good Judgment Project – und gewann mit weitem Vorsprung: "Thanks to IARPA, we now know a few hundred ordinary people and some simple math can not only compete with professionals supported by a multibillion-dollar apparatus but also beat them." (S. 91)
Seine Methodik bestand im Wesentlichen daraus, ein paar hundert Freiwillige dafür zu gewinnen, Vorhersagen zu den gestellten geopolitischen Fragen zu machen, und akribisch den Brier Score aller seiner Teilnehmer nachzuhalten. Diese Vorhersagen, die revidiert und aktualisiert werden durften, wurden gemittelt, um die "Wisdom of the Crowd" zu nutzen, aber dabei wurden die Vorhersagen der 40 besten Prognostiker besonders hoch gewichtet. Schließlich wurden die Prognosen "extremisiert", um ihnen eine höhere Trennschärfe zu verschaffen.
Als Begründung für dieses "Extremisieren" für Tetlock an: Durch die Nutzung der "Weisheit der Masse" gelingt eine nahezu vollständige Ausschöpfung aller verfügbaren Informationen, doch die Zuversicht der einzelnen Prognostiker wächst nicht mit der Informationsausschöpfung, weil die davon ja nichts erfahren. Wenn ein Prognostiker aber all diese Informationen hätte und noch dazu wüsste, dass sie praktisch vollständig sind, würde dies seine Zuversicht – und damit die Eindeutigkeit seiner Prognose – vermutlich stark ansteigen lassen. Deshalb ist es nicht nur gerechtfertigt, sondern sogar angebracht, die Eindeutigkeit (= Trennschärfe) entsprechend nach zu korrigieren.
Nicht Zufall, sondern Methode
Um die Qualität der Prognosen zu beurteilen, ist allerdings eine zufallskritische Betrachtung wichtig: Wenn 2800 Leute an einem Turnier teilnehmen, dann ist es völlig logisch, wenn eine kleine Zahl von ihnen weit an der Spitze liegt – selbst dann nicht, wenn die Ergebnisse eine Zufallsverteilung widerspiegeln, wie etwa beim Würfeln oder Münzwurf. Auch dann wird es rein zufällig Teilnehmer geben, deren Ergebnis außergewöhnlich gut erscheint.
Die Probe aufs Exempel ist die nächste Runde: Nach dem Gesetz der Regression zum Mittelwert sollte das Ergebnis der meisten der bisherigen Spitzenreiter dann nur noch im Mittelfeld liegen. Einige wenige werden auch dann weiter an der Spitze sein, jedenfalls noch für ein oder zwei Runden, je nach der zufälligen Trefferquote des Spiels, aber die allermeisten werden im Hauptfeld verschwinden und niemals zurückkommen.
Bei Tetlock Superforecastern passierte das genaue Gegenteil: Die meisten von ihnen wurden von Runde zu Runde noch besser. Einige hatten zwischendurch Ausrutscher, weil sie einzelne Prognosen versemmelten, aber sie kehrten in aller Regel in die Spitzengruppe zurück. Tetlock resümiert: "We can conclude that the superforecasters were not just lucky. Mostly, their results reflected skill." (S. 104)
Intelligente Nutzung der Intelligenz
Überragende Vorhersagen sind keine Frage außergewöhnlicher Intelligenz, stellt Tetlock im fünften Kapitel "Supersmart?" fest: "Intelligence and knowledge help but they add little beyond a certain threshold – so superforecasting does not require a Harvard PhD and the ability to speak five languages." (S. 109) Genau wie bei anderen Spitzenleistungen ist mindestens ebenso wichtig, wie man seine Intelligenz benutzt, etwa um exotische und unbeantwortbare Fragen mit etwas gesunden Menschenverstand in abschätzbar Teilfragen zu zerlegen.
Auf die Frage beispielsweise, wie viele Klavierstimmer es in New York gibt, würden die allermeisten Menschen nur die Achseln zucken: Wie kann ich das wissen – und warum sollte ich das wissen? Doch die Frage lässt sich auf Teilfragen herunterbrechen, die man zumindest solide schätzen kann – etwa: Wie viele Klaviere gibt es in New York? Wie häufig werden Klaviere gestimmt? Wie lange dauert das Stimmen eines Klaviers? Wie lang ist schätzungsweise die Wegzeit von Klavier zu Klavier? Wie viele Wochenstunden arbeitet ein Klavierstimmer?
Der Rest ist Punkt- und Strichrechnung, und das Ergebnis solcher Schätzungen ist oft erstaunlich genau. (Mich erinnert das stark an meine Anfangsjahre bei BCG, als man mir beibrachte: Mit ein paar "schlauen Annahmen" kann man fast jede unbekannte Zahl verblüffend genau schätzen. Eine der Testfragen, an die ich mich noch erinnere, war: Wie hoch ist die Oberflächenspannung von Wasser? Der Lösungsweg begann mit der Frage: Würde das Wasser eine Maus tragen? Vermutlich nicht. Eine Fliege? Vielleicht schon ...)
Vergleichbare Fälle als Ankerpunkt
Eine weitere wichtige Regel lautet: "Outside First"! Bevor man sich in die Details der konkreten Fragestellung vertieft, ist es nützlich, das zu ermitteln, was die Statistiker die "Base-Rate" nennen, also die Daten zu vergleichbaren Fällen. Gleich ob es darum geht, das aktuelle Risiko einer Rezession oder das einer Erkrankung zu bestimmen, eine nützliche Referenz sind in beiden Fällen Erfahrungswerte über vergleichbare Konstellationen.
Aber was ist die richtige Base-Rate? "It's often possible to find different outside views." (S. 119) In solchen Fällen geht es nicht darum, sich für den Fall zu entscheiden, der der eigenen Konstellation am nächsten kommt, es geht darum, alle sinnvollen Varianten in die Betrachtung einzubeziehen und im Konzept der bedingten Wahrscheinlichkeiten zu denken. Verfügbare Zusatzinformationen kann man nutzen, um seine Schätzung weiter auf die Bedingungen des konkreten Falls zuschneiden.
Die Außensicht ist deshalb so wichtig, weil sie hilft, den bestmöglichen "Anker" zu setzen: Den ersten groben Schätzwert, von dem man ausgeht und den man auf der Basis der Zusatzinformationen, die über den konkreten Fall verfügbar sind, nach oben oder unten anpasst. "The number we start with is called the anchor. It's important because we typically underadjust, which means a bad anchor can easily produce a bad estimate." (S. 120)
Kennzeichnend für Superforecaster ist, dass sie nicht nach Bestätigung für ihre Schätzungen suchen, sondern ständig auf der Suche nach zusätzlichen Informationen und weiteren Perspektiven sind, die sie zur Verfeinerung ihrer Schätzung in ihrer Sichtweise integrieren können. Eine Möglichkeit dazu ist der Austausch mit Kollegen. Eine andere ist, anzunehmen oder andere zu bitten anzunehmen, die eigene Theorie wäre falsch, und die möglichen Gründe dafür zu sammeln.
Intuitives Denken in Wahrscheinlichkeiten
Charakteristisch für gute Prognostiker ist die Persönlichkeitsdimension "Openness to experience (…) including preference for variety and intellectual curiosity." (S. 125) "For superforecasters, beliefs are hypotheses to be tested, not treasures to be guarded." (S. 127)
Wie die Autoren im sechsten Kapitel schreiben, sind gute Prognostiker keine "Superquants", die mit komplizierten Modellen arbeiten, aber sie haben ein sehr gutes und differenziertes Gespür für Wahrscheinlichkeiten, und vor allem haben sie verstanden, dass Unsicherheit ein integraler und unausweichlicher Bestandteil des Lebens ist.
Und sie nehmen es sehr genau: "Barbara Mellers has shown that granularity predicts accuracy." (S. 145) Das heißt zum Beispiel, sie schätzen Wahrscheinlichkeiten nicht nur in den Abstufungen "sehr hoch", "hoch", "mittel" usw. und auch nicht nur in Zehnerschritten, sondern nutzen bei ihren Anpassungen auch die Einer-Skala, passen ihre Prognose aufgrund neuerer Informationen auch mal nur um ein oder zwei Prozentpunkte nach oben oder unten an.
Dagegen sind gute Prognostiker nicht schicksalsgläubig: "Probabilistic thinking and divine-order thinking are in tension." (S. 148f.) Wer also glaubt, dass das Leben einem göttlichen Plan folgt, dass es im Leben keine Zufälle gibt und dass alles, was geschieht, aus einem tieferen Grund geschieht, der sollte sich besser aus dem Prognosegeschäft verabschieden: "The more a forecaster inclined toward it-was-meant-to-happen thinking, the less accurate her forecasts were. Or, put more positively, the more a forecaster embraced probabilistic thinking, the more accurate she was." (S. 152)
Systematisches Vorgehen und ständiges Aktualisieren
"Supernewsjunkies" sind gute Prognostiker nicht unbedingt, stellen die Autoren im siebten Kapitel fest. Sie nehmen Informationen nicht wahllos auf, sondern gehen ihre Fragestellungen auf eine recht einheitliche Art und Weise an, die grob den folgenden Regeln folgt:
"Unpack the question into components. Distinguish as sharply as you can between the known and unknown and leave no assumption unscrutinized. Adopt the outside view and put the problem into a comparative perspective that downplays its uniqueness and treats it as a special case of a wider class of phenomena. Then adopt the inside view that plays up the uniqueness of the problems. (…) Synthesize all these different views into a single vision as acute as that of a dragonfly. Finally, express your judgment as precisely as you can, using a finely grained scale of probability." (S. 153)
Auffällig ist weiterhin, dass Superforecaster ihre Vorhersagen wesentlich häufiger aktualisieren als durchschnittliche Teilnehmer. Zugleich korrigieren sie sich schneller, das heißt, sie kleben viel weniger an ihren ersten Vorhersagen, haben also offenbar weniger Herzblut (oder Ego) involviert. Häufig zeigt sich der Verlauf der Korrekturen als eine graduelle Annäherung von der ersten Schätzung bis in die unmittelbare Nähe des tatsächlichen Ergebnisses.
Während normale Menschen dazu neigen, ihre Vorhersagen irgendwann einmal als letzte Schätzung stehen zu lassen, betrachten Superforecaster sie tendenziell als "ewige Beta- Version", an der es immer noch etwas zu optimieren gibt. Das heißt, sie sind sich nie abschließend sicher und ständig bereit, aufgrund neuerer Informationen (die sie aktiv suchen) ihrer Meinung zu ändern. Was natürlich auch ein hohes Maß an Beharrlichkeit voraussetzt.
"The strongest predictor of rising into the ranks of superforecasters is perpetual beta, the degree to which one is committed to belief updating and self-improvement. It is roughly three times as powerful a predictor as its closest rival, intelligence." (S. 192)
Noch besser im Team
Im neunten Kapitel gehen Tetlock und Gardner der Frage nach, ob Superforecaster noch besser werden, wenn sie im Team arbeiten. Auf der einen Seite bestünde im Team die Chance, dass sie sich gegenseitig befruchten; auf der anderen steht nicht nur Rivalität, sondern vor allem das gefürchtete "Groupthink", also der Erkenntnisverlust, der entstehen kann, wenn einzelne es nicht wagen, ihre von der Mehrheit abweichende Meinung auszusprechen.
Die experimentelle Überprüfung ergab, dass Teams noch deutlich besser werden können als die besten Individuen, dass sie diesen Qualitätssprung aber nicht umsonst bekommen, sondern ihn sich hart erarbeiten müssen, indem sie die Fähigkeit zur konstruktiven Konfrontation kultivieren. Oft diskutierten Gruppen viel zu vorsichtig, weil keiner die Kollegen verletzen oder gar als Elefant im Porzellanladen wahrgenommen werden wollte.
Wenn Teams es allerdings schafften, diese Hürde zu nehmen, und die Fähigkeit entwickelten, konstruktiv Klartext zu reden, machen sie noch einmal einen richtigen Sprung nach vorne: "On average, when a forecaster did well enough in year 1 to become a superforecaster, and was put on a superforecaster team in year 2, that person became 50% more accurate. An analysis in year 3 got the same result." (S. 205)
Noch überraschender war, wie sich diese Teams gegenüber Vorhersagemärkten schlugen. Theoretisch sollten Märkte das perfekte Vorhersageinstrument sein, dass mit keinem Mittel und mit keiner anderen Methode geschlagen werden kann, denn "markets create incentives for people to relentlessly second-guess each other. The aggregation of all those judgments – and the information they are based on – is expressed in the price." (S. 205)
Die Empirie widerspricht der "Efficient Market Hypothesis" aufs heftigste. Als Tetlock und Kollegen ihre Prognoseteams gegen den Kapitalmarkt antreten ließen, waren die Ergebnisse glasklar: "The results were clear-cut each year. Teams of ordinary forecasters beat the wisdom of the crowd by about 10%. Prediction markets beat ordinary teams by about 20%. And superteams beat prediction markets by 15% to 30%." (S. 207)
Das Teamklima macht den Unterschied
Bemerkenswert ist, wie Tetlock diesen sensationellen Erfolg erklärt: "How did superteams do so well? By avoiding the extremes of groupthink and Internet flame wars. And by fostering minicultures that encouraged people to challenge each other respectfully, admit ignorance, and request help." (S. 207)
Nur unter der Voraussetzung, dass sich alle Teammitglieder psychologisch sicher fühlen, wenn sie die Überlegungen anderer Teammitglieder und selbst der Superstars in ihrem Team infrage stellen, und dass alle allein den Erkenntnisgewinn in den Mittelpunkt stellen und niemand eine Sichtweise verteidigt, nur weil es die seine ist, schöpfen Teams ihre Potenziale voll aus. Tetlock nennt das "Active Open-Mindedness" (AOM) und hat eine Korrelation zwischen der AOM-Wert eines Teams und dessen Genauigkeit festgestellt.
Allerdings ist die Qualität eines Teams nicht einfach eine Summe seiner Mitglieder und/oder von deren AOM-Werten. Sie ist, wie er schreibt, "an emergent property of the group itself, a property of communication patterns among group members, not just the thought processes inside each team member. A group of open-minded people who don't care about one another will be less than the sum of its open-minded parts. A group of opinionated people who engage one another in pursuit of the truth will be more than the sum of its opinionated parts." (S. 208)
Entscheidend ist, dass die Gruppe eine Kultur des Teilens entwickelt und pflegt. Tetlock stützt sich dabei auf einen Modell seines Wharton-Kollegen Adam Grant, der drei Typen von Menschen unterscheidet: die "Givers", die "Matchers" und die "Takers". Geber sind Menschen, die in einer Gruppe mehr beitragen also zurückbekommen; bei den Nehmern ist es umgekehrt, und die Matcher geben so viel wie sie bekommen.
In einem Umfeld von Nehmern gehen die Geber unter, und zugleich halten sich die Matcher zurück, weil sie von den Nehmern nichts zurückbekommen. Daher das Gesamtergebnis ist katastrophal. Tetlock geht nicht so weit wie Grant, der daraus ableitet, man müsse, um erfolgreiche Teams zu formen, in erster Linie die Nehmer loswerden. Aber zumindest muss man sie so weit unter Kontrolle bringen, dass die Geber nicht unter die Räder kommen. Denn sie machen offenbar den Unterschied: "There are lots more givers on the superteams." (S. 208)
Nicht zuletzt spielt auch die Vielfalt der Teammitglieder eine Rolle: "Diversity trumps ability" (S. 209). Denn jemand mag so fähig sein wie sie will, wenn sie keine neuen Perspektiven zu den vorhandenen Teammitgliedern addiert, trägt sie nichts zur Erweiterung der Perspektiven und damit zur Verbesserung des Ergebnisses bei. Je vielfältiger ein Team, desto größer ist die Wahrscheinlichkeit, dass jemand eine Information besitzt, die kein anderer hat, oder einen Gedanken entwickelt, auf den kein anderer gekommen ist.
Grenzen der Vorhersagbarkeit
Dass die Superforecaster so gut abschnitten, hat freilich nicht nur mit ihren Fähigkeiten zu tun, sondern auch mit der Art von Fragen, die ihn gestellt wurden. Die Fragen waren bewusst in der "Goldilocks-Zone" angesiedelt, das heißt, in einem Bereich, der wieder so banal war, dass jede(r) sie richtig beantworten konnte, noch so schwierig, dass jeder daran scheitern musste. Methodisch ist das natürlich sinnvoll, trotzdem wirft es die Frage nach den Grenzen menschlicher Vorhersagemöglichkeiten auf.
Tetlock äußert sich dazu mehrfach. Schon im vierten Kapitel über die Superforecaster stellt er fest: "Human cognitive systems will never be able to forecast turning points in the lives of individuals or nations several years into the future – and heroic searches for superforecasters won't change that." (S. 88f.)
Noch klarer und ausführlicher äußert er sich dazu in seiner Antwort auf die Kritik von Nassim Nicolas Taleb, der von "radical indeterminacy" und "an infinite array of alternative outcomes" bzw. "alternative futures" spricht (S. 249). Er lehnt daher jeden Versuch einer Vorhersage als fehlgeleitet, selbstgefällig und falsche Zuversicht verbreitend ab.
Tetlock hält ihm entgegen, mit einer falschen Dichotomie zu operieren: Die Zukunft besteht nicht nur aus völlig überraschenden und unvorhersagbaren Sprüngen, sondern auch aus Entwicklungen, die nicht nur ex post, sondern auch ex ante ihre Logik haben und daher auch zumindest ein Stück weit vorhergesehen werden können:
"Taleb, Kahneman, and I agree there is no evidence that geopolitical or economic forecasters can predict anything ten years out beyond the excruciatingly obvious (…) These limits on predictability are the predictable results of the butterfly dynamics in nonlinear systems. In my EPJ research, the accuracy of expert predictions declined toward chance five years out." (S. 243f.)
"But I also believe that humility should not obscure the fact that people can, with considerable effort, make accurate forecasts about at least some developments that really do matter. To be sure, in the big scheme of things, human foresight is puny, but it is nothing to sniff at when you live on that puny human scale." (S. 249)
Eine begeisterte Top-Empfehlung
Das Buch enthält noch viel mehr Gedanken und Erkenntnisse, als ich hier wiedergeben kann, aber das sind in meinen Augen die wesentlichen, deshalb lasse ich es dabei bewenden. Zum Schluss kündigt Tetlock an, er werde weiter an einer evidenzbasierten Revolution der Vorhersage arbeiten. Auf die setzt er ähnlich große Hoffnungen, wie sie uns die evidenzbasierte Medizin gebracht hat. Die Ökonomie und speziell die Nationalökonomie könnte es wahrhaft gebrauchen!
Leider habe ich zu spät bemerkt, dass sich hinter den Fußnoten im Text nicht nur Referenzen verbergen, sondern zum Teil sehr lesenswerte Ausführungen, die durchaus den Einzug in den Haupttext des Buchs verdient gehabt hätten. Mir wäre es lieber gewesen, diese Fußnoten nicht in einem Anhang, sondern auf der gleichen Seite zu haben – dann kann man selbst entscheiden, ob man sie liest, und muss nicht immer wieder in den Anhang und wieder zurückblättern.
Aber dem kann man mit Recht entgegenhalten: Wenn das der gravierendste Einwand ist, den ich zu erheben habe, dann scheint das Buch ja nicht ganz so schlecht zu sein. Ja, es ist der gravierendste Einwand, und das Buch ist in der Tat nicht ganz so schlecht – genau genommen ist es sogar ganz hervorragend und sehr zu empfehlen. Zumal es so gut und klar geschrieben ist, dass man es auch mit mäßigen Englisch den Originaltext mit Gewinn und Vergnügen lesen kann.
Eine deutsche Übersetzung ist seit 2016 bei S. Fischer verfügbar. Über deren Qualität kann ich nichts sagen.
|