Wer, bei welchen Gelegenheiten auch immer, Beurteilungen vornimmt, Prognosen abgibt und/oder Entscheidungen trifft, sollte dieses Buch unbedingt lesen, trotz der netto 400 Seiten. Kompetenter, verständlicher und ernüchternder kann man es nicht haben.
Seit ich 1985 bei BCG als frischgebackener Beraterlehrling einen Artikel über die Arbeit von Daniel Kahneman und seinem allzu früh verstorbenen Alter Ego Amos Tversky in die Hand bekam, bin ich angefixt und lese alles, was ich von ihnen in die Hände bekomme – zuletzt Thinking: Fast and Slow. Und fühlte mich sehr bestätigt, als Kahneman 2002 der Wirtschaftsnobelpreis zuerkannt wurde.
Als Koautor hat der diesmal den Harvard-Juristen Cass R. Sunstein erkoren, der bereits Koautor des Wirtschaftsnobelpreisträgers Richard Thaler bei Nudge: Improving Decisions About Health, Wealth, and Happiness war. Angesichts von so viel Prominenz war es kein Hindernis, dass mir der Name des anderen Koautors Olivier Sibony nichts sagte – der ehemalige McK-Berater ist Professor for Strategy and Business Policy am HEC Paris.
Dramatisch, haarsträubend, beängstigend
Aber "Noise"? (Was nicht nur "Lärm" bedeutet, sondern auch Rauschen, Störsignale und im weitesten Sinne jede Verzerrung von Messergebnissen.) Klar ist Rauschen ein Problem – aber was soll daran so aufregend sein, dass es die Aufmerksamkeit führender Köpfe unserer Zeit wert ist? Und warum muss man darüber so viele Seiten schreiben (bzw. lesen)?
Wer so fragt, hat – genau wie ich – die Tragweite des Problems nicht verstanden. Auch vor dieser Lektüre habe ich fehlerhafte Einschätzungen, Beurteilungen und Prognosen schon als Ärgernis betrachtet, aber halt als eines, mit dem man bei aller Lästigkeit leider leben muss, genau wie mit gelegentlichen Wespenstichen und Mücken im Schlafzimmer.
Nach der Lektüre der netto 400 Seiten – der Rest sind Anmerkungen und Register – sehe ich das anders. Ich bin schockiert und geradezu verstört, in welchem Ausmaß "Noise" Messungen, Beurteilungen und Prognosen verzerrt. Die erfreulich flüssige und unterhaltsame Darstellung macht es leicht, nicht nur das Problem zu verstehen, sondern auch die Lösungsansätze der drei Autoren nachzuvollziehen.
Auch wenn mir das Problem der Fehlurteile "im Prinzip" bewusst war, muss ich bekennen, seine Dimension völlig unterschätzt zu haben. Zwar war mir spätestens seit den Psychodiagnostik-Vorlesungen im Studium klar, dass zum Beispiel Laufbahnprognosen oder Einstellungsentscheidungen eine ziemlich lausige Vorhersagegüte haben – was sich wohl zumindest zum Teil damit erklärt, dass zu dem Zeitpunkt, wo sie getroffen werden, viele künftige Entwicklungen noch nicht feststehen.
Beispielsweise können Kandidaten in der langen Zeit nach der Prognose erkranken oder Unfälle haben, sie können das Interesse an bestimmten Themen verlieren oder einer radikalen Sekte beitreten, eine Sucht entwickeln oder in Lebenskrisen geraten; aber sie können auch in ein optimal förderliches Umfeld geraten und unerwartet aufblühen – lauter Dinge, die dramatischen Einfluss auf ihren Werdegang und ihre berufliche Leistung haben können und die seriöseste Prognose ins Nirwana laufen lassen.
Urteil oder Lotterie?
Wer einen Hang zum Sarkasmus hat, könnte die mangelnde Vorhersagegüte von Karriereprognosen und Einstellungsentscheidungen (wie auch die von Leistungsbeurteilungen) sogar als wirksames Gegengift gegen die verbreitete Diskriminierung aufgrund von Leistung und Fähigkeiten betrachten – eine Diskriminierung, die in der öffentlichen Diskussion weit weniger problematisiert wird als andere Arten von Diskriminierung.
Aber dass von Experten die gleichen Fingerabdrücke unterschiedlich beurteilt werden, je nachdem, ob man ihnen vorher sagte, dass sie höchstwahrscheinlich von der Täterin stammten oder von einem Unbeteiligten, das macht fassungslos. Dito, dass sogar die vermeintlich unfehlbare DNA-Analyse eine hohe Fehlerquote aufweist.
Diese hohe Fehlerquote erklärt sich zum Teil wohl daraus, dass sowohl Fingerabdrücke als auch DNA von Tatorten selten von optimaler Qualität sind; sie sind häufig verunreinigt und unter Umständen unvollständig. Daher enthält sowohl ein Fingerabdruck- als auch ein DNA-Beweis wesentlich mehr "Meinung" als den Medien und der Öffentlichkeit bewusst ist. Was spätestens dann katastrophale Folgen haben kann, wenn Richterinnen diese Beweismittel für absolut verlässlich halten.
Dass Asylsuchende (in den USA) je nachdem, an welche Entscheiderin sie gerieten, mal nur in 5 Prozent der Fälle Schutz erhielten und mal in 88 Prozent der Fälle, das hat mit einem fairen Verfahren nichts mehr zu tun. Was die Sache nicht besser macht, ist, dass das Ergebnis auch signifikant vom Wetter beeinflusst ist: Bei schönem Wetter gibt es weniger Asyl als bei schlechtem.
Weiter weisen die Strafurteile von amerikanischen Bundesrichtern (federal judges) bei den gleichen standardisierten Fällen eine Bandbreite von Bewährung bis zu langjährigen Haftstrafen auf – was den Verdacht weckt, dass die begangene Straftat geringeren Einfluss auf das Urteil hat als die Richterin, die zufällig bzw. nach Geschäftsverteilungsplan den Fall übernimmt. Strafverfahren werden so zu einer Lotterie, bei der zwischen Freispruch und Höchststrafe alles möglich ist.
Wo Urteil, da Rauschen
Wenn man dann auch noch erfährt, dass Richter am Montag nach Wochenenden, an denen ihre Heimmannschaft verloren hat, strenger urteilen als nach deren Siegen (und in abgeschwächtem Ausmaß die ganze Woche lang) und dass diese ihre Übellaunigkeit hauptsächlich nichtweiße Angeklagte trifft, dann wird es endgültig schwer, sein Restvertrauen in die Justiz zu bewahren.
Eine zynische Legitimation dieser "Lotterie" lautet, gerade diese hohe Zufallskomponente erhöhe die Abschreckungswirkung. Dieses ethisch fragwürdige Argument trägt freilich nur so lange, wie man annimmt, dass potenzielle Straftäter mehrheitlich risikoavers sind – was empirisch auf ziemlich wackeligen Füßen steht. Tatsächlich sind sie wohl mehrheitlich risikofreudig: Sie hoffen, nicht erwischt zu werden, und wenn doch, milde davonzukommen. In diesem Fall wäre die Lotterie ein zusätzlicher Anreiz.
Es passt ins gruselige Bild, dass auch medizinische Diagnosen einen hohen Rauschpegel aufweisen. Oder dass die Gewährung von Patenten maßgeblich von der Person abhängt, die den Antrag bearbeitet. Oder dass die Prämien von Industrieversicherungen mindestens ebenso von der Persönlichkeit der "Underwriter" abhängen, die den Fall bearbeiten, wie von dem Risikoprofil der Firmen.
Im schlimmsten Fall können "rauschige" Urteile ganze Leben versauen, wie etwa, wenn Kinder aufgrund schlechter Prognosen aus ihren Ursprungsfamilien herausgenommen und in Pflegefamilien gegeben werden. Das kann sich Jahre später in erhöhter Kriminalität, ungewollten Schwangerschaften und niedrigeren Einkommen niederschlagen.
Trotzdem ist all das nur die Spitze des Eisbergs, denn Kahneman, Sunstein und Sibony beschränken sich in ihrem Buch auf die Fälle, wo die Verrauschtheit der Urteile, Einschätzungen und Prognosen empirisch sauber belegt ist – was sie in der überwältigenden Mehrzahl der Fälle natürlich nicht ist. In allzu vielen Fällen will man es gar nicht so genau wissen und sieht von Überprüfungen ab. Es gibt aber keinen Grund anzunehmen, dass die Qualität der Entscheidungen und Prognosen in diesen Fällen besser wäre – im Gegenteil.
Das erste Zwischenresümee der Autoren lautet denn auch:
"Wherever there is judgement, there is noise – and more of it than you think." (S. 12)
Verzerrung (Bias) vs. Rauschen (Noise)
Angesichts dieser niederschmetternden Befunde steht man unweigerlich vor der Frage, was man daraus ableiten soll – oder ob man einfach weinend nach Hause gehen und an der Welt verzweifeln soll. Eine erste praktische Schlussfolgerung wäre wohl, der Justiz aus dem Weg zu gehen, wo immer es möglich ist (Mediation!), und bei gravierenden medizinischen Diagnosen immer (mindestens) eine Zweitmeinung einzuholen.
Es lässt sich aber auch ableiten, dass sich Beharrlichkeit auszahlt: Wo immer Urteile "verrauscht" sind, lohnt es sich, es ein zweites und drittes Mal zu versuchen, wenn einem das Ergebnis beim ersten Mal nicht gefällt. Gleich ob es Prüfungen sind, Asylanträge oder Bewerbungen, je öfter man es versucht, desto wahrscheinlicher wird, irgendwann mit einem positiven Ergebnis herauszukommen.
Verrauschte Systeme gleichen einer Lotterie, bei der die Gewinnchancen umso größer sind, je mehr Lose man kauft. Deshalb wäre es daher grundfalsch, zu früh zu resignieren. (Prinzipiell gilt das auch für medizinische Diagnosen, nur nützt es da weniger, weil der ersehnte negative Befund einen vorhandenen Tumor nicht zum Verschwinden bringt. Er gibt ihm allenfalls die Chance, sich ohne Behandlung so zu entwickeln, wie immer er sich ohne Behandlung entwickelt.)
Alleine schon diese Erkenntnisse sind im Grunde die Lektüre des Buches wert, aber die Autoren haben natürlich noch mehr vor. Sie wollen nicht bloß lehren, mit dem allgegenwärtigen Rauschen zu leben und dort, wo es möglich ist, daraus Nutzen zu schlagen: Sie wollen Strategien anbieten, wie sich "Noise" reduzieren lässt. Dafür ist es notwendig, dieses Rauschen erst einmal zu analysieren, um zu verstehen, wie es zustande kommt und aus welchen Komponenten es sich zusammensetzt.
Eine erste wichtige Unterscheidung ist die zwischen Bias (Verzerrung) und Noise. In beiden Fällen liegen die Urteile daneben, aber im Falle von Bias liegen sie systematisch daneben, während "normales" Rauschen unsystematisch streut, und zwar um den richtigen Mittelwert herum. Deshalb hebt sich Rauschen im Durchschnitt auf, Verzerrung hingegen führt zu einem systematisch falschen Mittelwert.
Um Verzerrungen erkennen zu können, muss man das Ziel bzw. das richtige Ergebnis kennen. Rauschen lässt sich hingegen auch in Unkenntnis des wahren Werts feststellen, indem man die Streuung untersucht bzw. die Varianz berechnet. Um etwa festzustellen, dass eine Richterin nach dem Essen milder urteilt als vor dem Essen, muss man nicht wissen, welche Strafe gerecht wäre, es reicht, einen systematischen Unterschied zu konstatieren (und ggf. über eine größere Zahl von Richtern zu belegen).
Unterschiedliche Arten von Rauschen
Innerhalb des Rauschens lassen sich mehrere Kategorien unterscheiden. An erster Stelle steht "Systemrauschen" (system noise), das die Autoren am Beispiel der Justiz erläutern. Eigentlich sollte es ja so sein, dass die Höhe der Strafe alleine von der Tat und ihren besonderen Umständen abhängt, nicht aber von der Richterin, an die der Täter zufällig gerät, oder von ihrer Tagesform – real ist es aber ganz anders.
"System noise, that is, unwanted variability in judgments that should ideally be identical, can create rampant injustice, high economic costs, and errors of many kinds." (S. 21)
"System noise is inconsistency, and inconsistency damages the credibility of the system." (S. 53)
Wenn einzelne Richterinnen (oder Beurteiler) generell strenger urteilen als andere, spricht man von "Level Noise" – was sich schlecht übersetzen lässt ("Niveaurauschen"?); am treffendsten ist wohl, hier davon zu sprechen, dass von unterschiedlichen Beurteilern mit unterschiedlich strengen Maßstäben gemessen wird.
Solch unterschiedliche Maßstäbe erklären einen Teil des Systemrauschens: Wenn manche Richter, Lehrerinnen oder Führungskräfte generell milder bewerten als andere, ist das Gesamtergebnis verrauscht und damit nicht wirklich gerecht – und zwar selbst dann nicht, wenn die einzelnen Beurteiler in ihren Urteilen hochgradig konsistent sind, also gleiche Fälle immer gleich beurteilen.
Tun sie aber nicht. Bei Richtern zum Beispiel ist ihre durchgängige "Strenge" oder "Milde" nicht die einzige Quelle von Systemrauschen. Vielmehr kann es auch sein, dass eine Richterin etwa bei Gewaltdelikten strenger urteilt als ihre Kolleginnen, bei Eigentumsdelikten aber milder – oder dass sie auf spezielle Delikte oder Tätergruppen (!!) besonders ungnädig oder untypisch verständnisvoll reagiert.
Desgleichen kann zum Beispiel auch eine Führungskraft bei Leistungsbeurteilungen auf bestimmte Aspekte ungewöhnlich großen oder geringen Wert legen, wie etwa Pünktlichkeit, Arbeitstempo, Flüchtigkeitsfehler, terminliche Zuverlässigkeit, Loyalität oder was auch immer. In all diesen Fällen spricht man bzw. sprechen die Autoren von "Pattern Noise", also, frei übersetzt, von (persönlichkeitsspezifischen) "Rauschmustern". Auch sie fließen in das Systemrauschen ein und sind, wie die Autoren in späteren Kapiteln feststellen, sogar die größere Quelle von Rauschen.
Gelegenheitsrauschen oder situative Varianz
Und schließlich gibt es mehr oder weniger zufällige Inkonsistenzen im Urteilsverhalten des Einzelnen – wie etwa, dass Ärzte am späten Nachmittag, wenn sie (mutmaßlich) müde sind, ihren Patienten weniger vertiefende Untersuchungen verschreiben als vormittags. Oder dass eine Richterin, weil sie auf dem Weg zur Arbeit einen Unfall hatte, dem Straftäter, der an diesem Tag das Pech hat, ihr nächster Fall zu sein, ein paar Monate (oder Jahre) mehr aufbrummt als sie es in ausgeglichenem Zustand getan hätte.
Das nennen Kahneman & Co. "Occasion Noise", Gelegenheitsrauschen. Der Begriff tritt es in meinen Augen treffend, gerade weil er nicht suggeriert, dass die Streuung rein zufällig wäre. Sie hat in vielen Fällen Ursachen – wie etwa Müdigkeit, Stress oder Frustration über die Niederlage der eigenen Mannschaft. So lange Entscheidungen von Menschen getroffen werden und nicht von Automaten, müssen wir wohl damit leben, dass momentane Stimmungen, unsere innere Verfassung, Außeneinflüsse und die Tagesform unbewusst auch unsere Urteile beeinflussen.
So blöd es ist, "you are noisy." (S. 89) Wir alle sind es.
Eine weitere Quelle ebenso grotesker wie systematischer Fehlurteile sind bei wiederkehrenden Entscheidungen die vorausgegangenen Fälle:
"Asylum judges in the USA (…) are 19% less likely to grant asylum to an applicant when the previous two cases were approved. A person might be approved for a loan if the previous two applicants were denied, but the same person might have been rejected if the previous two applicants had been granted." (S. 90)
Auch wenn das ohne Zweifel viele kleine Vektoren sind, die in unterschiedliche Richtungen zeigen, bin ich nicht sicher, ob sie, wie die Autoren sagen, als Zufallsfehler betrachtet werden können. Für die wissenschaftliche Analyse mag das stimmen, weil sie sich in statistischen Studien kaum kontrollieren lassen; für die Entscheidungspraxis hingegen scheint es mir relevant und beeinflussbar. Schon die alte Regel, die sie wenige Seiten später selbst erwähnen, über wichtigen Entscheidungen zu schlafen, sollte solche situativen Einflüsse reduzieren und damit die Entscheidungsqualität verbessern.
Einen ähnlichen Effekt würde ich mir schon davon erwarten, dass man über diese Einflussfaktoren Bescheid weiß. Wenn Richterinnen vor Entscheidungen reflektierten, in welcher Stimmung sie gerade sind und ob sie eher zu harsch oder zu milde tendieren, sollte dies ihr Rauschen reduzieren. Denn, so würde ich vermuten, die wenigsten Beurteiler wollen unfair sein – und wenn sie erkennen, dass sie in einer ungünstigen inneren Verfassung sind, dürften sie sich korrigieren.
Wahrhaft furchterregend ist, dass vermutlich nicht einmal ein Prozent aller Richter, Vorgesetzten und Lehrerinnen auf dieser Welt über diese Einflussfaktoren Bescheid wissen – und ihnen daher blind unterliegen.
Eine weitere Möglichkeit, das eigene Rauschen zu reduzieren, ist, indirekt "die Weisheit der Vielen" zu nutzen. Wie etliche Untersuchungen gezeigt haben, liegt der Mittelwert mehrerer unabhängiger Schätzungen näher an der Wahrheit als die allermeisten Einzelschätzungen. Wenn man gerade keine "Vielen" zu Verfügung hat, kann man, so die Autoren, auch eine "Inner Crowd" bilden, sprich, zu unterschiedlichen Zeitpunkten zwei oder drei Beurteilungen vornehmen und dann deren Mittelwert bilden.
Automaten statt Menschen oder die Illusion von Verlässlichkeit
Was kann man sonst tun, um Beurteilungen, Schätzungen, Prognosen, generell Entscheidungen zu verbessern? Ein ebenso einfacher wie unpopulärer Weg ist, Menschen durch Algorithmen zu ersetzen. "Simple models beat humans." (S. 116)
Schon 1954 hat Paul Meehl, ein damals in Minnesota lehrender Professor für klinische Psychologie, die Fachwelt gegen sich aufgebracht, indem er nachwies, dass simple Algorithmen, die auf wenigen Kriterien basierten, künftiges Verhalten besser vorhersagten und bessere Therapieentscheidungen trafen als erfahrene Kliniker mit all ihren fachlichen Qualifikationen, differenzierten Überlegungen und Einzelfall-Abwägungen.
"Meehl's results strongly suggest that any satisfaction you felt with the quality of your judgment was an illusion: the illusion of validity." (S. 115)
Heerscharen gekränkter Psychologen und Psychiaterinnen erstellten Hunderte von Studien, um Meehl zu widerlegen – und mussten kapitulieren. Ein Grund für die Überlegenheit von Algorithmen ist schlicht und einfach, dass sie nicht rauschen. Sie liefern unabhängig von der Tagesform, von Stress und Erschöpfung immer dasselbe Ergebnis. Es mag bei Weitem nicht so fundiert, qualifiziert und differenziert sein wie das erfahrener Klinikerinnen, aber es ist rauschfrei, es fällig immer gleich aus. Diese "hirnlose Konsistenz", wie Forscher es genannt haben, reicht nicht nur, um im klinischen Bereich den Sieg davonzutragen – sie reicht sogar, um auf fast allen Feldern unschlagbar zu sein.
Daran lässt sich ersehen, wie gravierend "Noise" ist. Es ist bei Weitem mehr als ein Schönheitsfehler oder eine Widrigkeit, mit der man halt leben muss. Ein hoher Rauschpegel macht alles kaputt. Die ganze Expertise, klinische Erfahrung, trainierte Beobachtungsgabe, empathische Analyse nützt nichts, wenn es stark rauscht. Dann bleiben Expertenurteile trotz aller Differenziertheit hinter primitiven Algorithmen zurück: "The subtlety is largely wasted." (S. 119)
Algorithmen vertrauen?
Trotzdem haben die meisten Menschen große Vorbehalte, ihr Schicksal Algorithmen anzuvertrauen. Ich glaube, ich bin einer der wenigen, die, wenn die Technik so weit ist, lieber in ein selbstfahrendes Auto steigen würden als in ein Taxi, geschweige denn in ein Auto, das von einer unerfahrenen Fahrerin oder gar von einem männlichen Führerscheinneuling gesteuert wird. (Diese Entscheidung ist letztlich auch eine Prognose, nämlich die, heil anzukommen.)
Desgleichen verlassen sich die meisten Leute lieber auf die Diagnosen menschlicher Ärztinnen als auf die von Algorithmen, selbst wenn jene im wissenschaftlichen Vergleich nachweislich treffsicherer sind. Zumindest würden sie wohl wollen, dass ein menschlicher Doktor noch mal auf die Computerdiagnose draufschaut, einfach um das Gefühl zu haben, dass der verdammte Algorithmus auch ihrem Einzelfall gerecht wird und nichts Wesentliches übersehen hat.
Nüchtern gesagt, heißt das: Das Gefühl, dass sich ein menschliches Wesen mit unserem besonderen Fall auseinandergesetzt hat, ist uns so wichtig, dass wir dafür ein erhöhtes Risiko für unsere Gesundheit in Kauf nehmen. Tief in unserem Inneren vertrauen wir Menschen mehr als der Technik – trotz gegenläufiger Beweislage. Oder umgekehrt, wir fürchten Fehler der Technik mehr als menschliches Versagen. Das gilt für sehr viele Entscheidungen: Personalauswahl, Asylverfahren, Strafprozesse …
Dass auch die Entscheider selbst weitaus mehr an ihre Urteile und Prognosen glauben als an systematische Verfahren oder gar Algorithmen, verwundert kaum. Dumm nur, dass das "gute Gefühl" bei einer Entscheidung keinerlei Auskunft über deren Qualität liefert. Selbst wenn man zu 120 Prozent oder mehr von seiner Entscheidung überzeugt ist, ist das am Ende nur eine Information über die eigene Befindlichkeit, keine über die Qualität.
Die besten Experten – und ihre Tücken
Mehr Akzeptanz verspricht der Ansatz, sich für Beurteilungen, Prognosen und Entscheidungen an die besten jeweils verfügbaren Expertinnen zu halten. Tatsächlich lässt sich zeigen, dass zum Beispiel bei der Beurteilung medizinischer oder auch forensischer Befunde manche Experten deutlich treffsicherer sind als andere. Wo also etwas auf dem Spiel steht, erscheint es ratsam, die Beurteilung nicht irgendjemandem zu überlassen, sondern sich dafür die Besten auf ihrem Gebiet zu suchen.
So plausibel dieser Ansatz auf den ersten Blick erscheint, er wirft allerhand praktische Probleme auf: Wenn alle auf die besten Ärztinnen, Forensiker und Underwriter zugreifen wollen, wie sollen die den Andrang bewältigen? Und was wird dann aus dem Rest? Wie soll dann die schiere Menge der notwendigen Untersuchungen, Strafverfahren, Versicherungsanträge bewältigt werden?
Noch vertrackter ist aber die Frage: Wie identifiziert man die besten Experten? Nur in wenigen Fällen lässt sich deren Trefferquote schließlich leicht und zuverlässig bestimmen; die Güte ihres Urteils wird nur selten systematisch nachgehalten. Bloßes Hörensagen ist eine zweifelhafte Quelle, der eigene Eindruck ("bei der habe ich ein gutes Gefühl") nicht minder.
In der Öffentlichkeit gelten oft diejenigen als Expertinnen, die ihre Meinungen besonders eloquent und mit großer Inbrunst vortragen. Doch in den seltensten Fällen wird überprüft, was aus ihren Prognosen eigentlich geworden ist. Solche Experten sind, wie der Prognoseforscher Philip Tetlock festgestellt hat, letztlich eher dem Entertainment Business zuzurechnen: Sie spucken auf Knopfdruck bzw. Befragen Analysen aus, die der Öffentlichkeit die Illusion von Verstehen vermitteln; an einer Verifikation hat keine Seite Interesse, stattdessen wird in der Folgesendung die nächste Analyse oder Prognose eingespielt.
Wie gut einzelne Expertinnen mit anderen Experten übereinstimmen, ließe sich mit überschaubarem Aufwand feststellen. So ließe sich bestimmen, welche von ihnen den geringsten Rauschpegel aufweisen. Ob ihre Analysen oder Prognosen auch zutreffen, steht allerdings auf einem anderen Blatt, denn die perfekte Übereinstimmung mit anderen Fachleuten ist keine Wahrheitsgarantie. Genau besehen führte das Kriterium der Übereinstimmung zu einer völligen Veränderung der Aufgabenstellung: Statt "Sage, was richtig ist" lautete sie dann: "Sage vorher, was die anderen sagen werden."
Aufruf zur Entscheidungshygiene
Praktikabler erscheint da ein Ansatz, den die Autoren als "Debiasing and Decision Hygiene" bezeichnen. Beim Debiasing geht es, wie der Begriff erahnen lässt, darum, mögliche systematische Verzerrungen zu thematisieren und nach Möglichkeit zu korrigieren – entweder im Voraus oder nachträglich. Das stößt in der Praxis allerdings an Grenzen, weil die Menge möglicher Verzerrungen zu groß ist und auch nicht immer klar ist, in welche Richtung sie wirken.
"It is difficult to know exactly which psychological biases are affecting a judgment. In any situation of some complexity, multiple psychological biases may be at work, conspiring to add error in the same direction or offsetting one another, with unpredictable consequences. (…) In many situations, the likely direction of an error is not known in advance." (S. 240)
Erfolgversprechender ist daher, das Debiasing "real-time" vorzunehmen, und zwar, indem man einen "Decision Observer" benennt, der den Entscheidungsprozess beobachtet und anhand einer Checkliste auf mögliche Verzerrungen aufmerksam macht, die die Gruppe oder das Gremium möglicherweise davon abbringen, eine optimale Entscheidung zu treffen. (Eine entsprechende Checkliste liefern sie praktischerweise im Anhang mit.)
Generell raten sie dringend dazu, sich um mehr "Entscheidungshygiene" zu bemühen – wohl wissend, dass Hygienemaßnahmen immer nervig und undankbar sind. Denn während man, so wie beim Händewaschen, den zusätzlichen Aufwand jedes Mal aufs Neue spürt, bleibt sein Nutzen unsichtbar, denn für vermiedene oder verhinderte Fehlentscheidungen bekommt man ebensowenig eine Auszeichnung wie für vermiedene Infektionen.
"Noise is an invisible enemy, and preventing the assault of an invisible enemy can yield only an invisible victory." (S. 244)
Die eigene Fehlbarkeit einplanen
Ein zentraler Ansatzpunkt der Entscheidungshygiene ist, sich und andere vor Schnellschüssen zurückzuhalten. Unsere "Hardware-Verdrahtung" bringt es mit sich, dass wir uns in aller Regel sehr schnell eine Meinung bilden – und ab diesem Moment nicht mehr nach zusätzlichen Informationen und Erkenntnissen suchen, sondern nur noch nach Bestätigung. Im schlimmsten Fall führt dies zu "Bias-Kaskaden": Ein anfänglicher Irrtum zieht eine ganze Kette weiterer Fehleinschätzungen nach sich.
Wenn etwa die Ermittlungsbeamtinnen einen klaren Verdächtigen benennen, identifizieren ihn auch die Fingerabdruckexperten, und die Staatsanwaltschaft stellt ihn wegen dringendem Tatverdacht dem Ermittlungsrichter vor. In andere Richtungen wird gar nicht mehr ermittelt – sodass die Ermittler unter Druck kommen, zusätzliche Beweise und Indizien zu liefern, weil sie völlig blank dastünden, wenn sich ihr ursprünglicher Verdacht nicht erhärten ließe.
Ein elementarer "Trick", um solche voreiligen Schlüsse zu vermeiden, liegt darin, sich selbst und andere daran zu hindern, sich zu schnell eine Meinung zu bilden. Das beginnt damit, dass man sich die Existenz von Noise und damit die Möglichkeit von Fehlern bewusst macht – nicht nur abstrakt, sondern auch im eigenen Fall und auch in dem konkreten Fall, mit dem man es gerade zu tun hat. Die Autoren bieten dafür einen schönen Merksatz an:
"Wherever there is judgment, there is noise, and more of it than you think." (S. 255)
Für unabhängige Beurteilungen sorgen
Vielleicht die beste praktische Möglichkeit, das bewusste Zurückstellen eines Urteils umzusetzen, ist, den Entscheidungsprozess in mehrere voneinander getrennte Bewertungsschritte zu zerlegen und – schon wieder so eine Lästigkeit! – die Urteile und Eindrücke zu jedem dieser Schritte sofort und damit getrennt zu dokumentieren.
Zu der Trennung der Schritte zählt auch, dass, wann immer andere Fachleute für einzelne Beurteilungen zugezogen werden müssen, sie das Ergebnis der bisherigen Untersuchungen nicht kennen dürfen. Denn, siehe oben: Wenn die DNA-Analystin von dem dringenden Tatverdacht weiß, lenkt das ihr Urteil.
Erst wenn alle vorausgegangenen Schritte abgeschlossen sind und alle Fakten und Einschätzungen auf dem Tisch liegen, ist der Moment für eine abschließende Bewertung gekommen – und dann hat auch die Intuition ihren Platz: Nicht als Ersatz für Analysen, sondern als deren Gegenstück.
Immer wieder kreisen die Strategien zur Rauschreduktion um das Vermeiden voreiliger Festlegungen und gegenseitiger "Ansteckung": ein beharrliches Bestreben, möglichst unabhängige und "unverschmierte" Einzelurteile als Basis für die endgültige Entscheidung zu bekommen. Schon eine schlichte Durchschnittsbildung mehrerer unabhängiger (!) Meinungen oder Urteile reduziert das Rauschen erheblich – auch wenn es systematische Verzerrungen nicht beseitigen kann.
Weil mehrere unabhängige Urteile aussagekräftiger sind als eines, ist es auch ein ziemlicher Unfug, Bewerbungsgespräche zu mehreren oder gar in großer Runde zu führen. Mit dem gleichen Zeitaufwand könnte man auch mehrere (strukturierte!) Einzelinterviews führen und die Ergebnisse vergleichen.
Eine weitere, auf "Zerlegung" aufbauende Strategie zur Rauschverminderung sind Leitlinien (guidelines) wie der berühmte APGAR-Score, bei dem Beobachter den Gesundheitszustand neugeborener Kinder anhand von fünf Kriterien auf einer jeweils dreistufigen Skala einschätzen: Appearance – Pulse (heart rate) – Grimace (reflexes) – Activity (muscle tone) – Respiration (breathing rate and effort). Dabei gilt die Regel: Ab einer gewissen Punktzahl gilt der Gesundheitszustand des Kindes als gut.
Auf diese Weise verwandelt sich eine hochkomplexe Beurteilungsfrage in fünf relativ simple Beobachtungsaufgaben: Sogar medizinische Laien sind etwa dazu in der Lage zu beurteilen, ob ein Kind eine gesunde Farbe hat oder ob sein Körper blass oder bläulich ist. Trotzdem kann eine erfahrene Pädiaterin im konkreten Einzelfall sagen: Der APGAR-Wert ist zwar o.k., aber wir behalten das Kind trotzdem erst einmal in Beobachtung. Aber dieses intuitive Urteil kommt nach der Bewertung, nicht davor.
Der Haken bei solchen Leitlinien ist allerdings: Man muss sich mit einem Thema schon ziemlich gut auskennen, um es in eine Handvoll einfacher Beobachtungsaufgaben zerlegen zu können. Denn diese Leitlinie muss alles Wesentliche umfassen – es wäre ziemlich gefährlich, wenn dabei etwas Lebenswichtiges außer Acht bliebe.
Relative Beurteilungen sind verlässlicher als absolute
Mit einem hohen Rauschpegel haben auch Leistungsbeurteilungen zu kämpfen – auch wenn Unternehmen das in der Regel nicht wahrhaben wollen. Und sie gönnen sich die ganze Palette von "level noise" über "pattern noise" bis "occasion noise". Erfahrene Mitarbeiter wissen, wie sie ihren Beitrag zu letzterem leisten können, indem sie kurz vor der Beurteilung noch etwas aus dem Zylinder zaubern, was ihre Chefin beeindruckt. Für einiges Rauschen sorgt aber auch die Tatsache, dass manche Vorgesetzte "ehrlich" bewerten, andere konfliktvermeidend und wieder andere "erzieherisch".
Manche Firmen verlangen "forced rankings", also die Bildung einer Rangfolge, um für vergleichbare Bewertungen zu sorgen, andere geben Verteilungen vor (wie etwa "maximal 15% überdurchschnittlich, mindestens 15% unterdurchschnittlich). Beides sehen Kahneman, Sunstein und Sibony kritisch. Ihre Empfehlung lautet:
"Rank but do not force." (S. 294)
Für relative Bewertungen spricht aus ihrer Sicht, dass sie weniger Rauschen generieren als absolute. Denn wo man eine Mitarbeiterin auf einer absoluten Skala einordnet, ist immer eine Ermessensfrage – und nicht zuletzt auch eine Frage der eigenen Maßstäbe. Mehrere Mitarbeiter relativ zueinander einzuordnen, ist im Allgemeinen leichter, vor allem wenn spezifische Skalen verwendet werden, die die Gesamtbewertung in mehrere relevante Dimensionen zerlegen.
Ein erzwungenes Ranking ist dagegen kontraproduktiv:
"Forcing a differentiated distribution of ratings on [a] undifferentiated reality does not reduce error. It increases it." (S. 296)
Angesichts des immensen Aufwands, der mit Leistungsbeurteilungen verbunden ist, des kaum belegbaren Ertrags und ihrer möglichen kontraproduktiven Effekte betrachten die Autoren es allerdings als ernstzunehmende Option, dieses den meisten Beteiligten verhasste Ritual ganz aufzugeben.
Wer dazu nicht bereit ist, dem legen sie zwei Dinge ans Herz, nämlich erstens, eine Skala zu verwenden, unter denen jede Beurteilerin das Gleiche versteht, und sie zweitens mit konkreten Verhaltensbeispielen zu hinterlegen, damit klar(er) wird, was bei den verschiedenen Stufen der Referenzmaßstab ist.
Ein Schritt-für-Schritt-Entscheidungsprozess
Als Kulminationspunkt ihrer Lösungsvorschläge stellen die Autoren schließlich ein Verfahren vor, das sie etwas sperrig "Mediating Assessments Protocol" nennen, also etwa Prüfschrittverfahren. Wenig überraschend zielt es im Kern ebenfalls darauf ab, die Festlegung auf eine ganzheitliche Bauchentscheidung hinauszuschieben, bis alle erforderlichen Untersuchungsschritte gemacht sind.
Als erstes geht es bei diesem "MAP" darum, "a comprehensive list of independent assessments" (S. 315) zu erstellen, also sämtliche Untersuchungen und Analysen zu definieren, die als Grundlage für eine fundierte Entscheidung erforderlich sind. Diese Einzelschritte sollten so unabhängig voneinander wie möglich durchgeführt werden, damit sie sich nicht gegenseitig färben.
Dabei raten die Autoren dringend dazu, wo immer möglich, eine Außensicht (outside view) einzunehmen, sich also beispielsweise nicht nur zu fragen, wie man selbst die Erfolgsaussichten eines bestimmten Vorhabens einschätzt, sondern herauszufinden, wie die tatsächliche Erfolgsquote bei vergleichbaren Vorhaben war. Die Bestimmung der "Baseline", also des statistischen Erwartungswerts, führt häufig zu einer gewissen Ernüchterung gegenüber einer allzu zuversichtlichen Innensicht.
Bei der abschließenden Entscheidung sollten zunächst alle Analysen und Untersuchungen getrennt betrachtet werden. Dann stellt sich in der Regel heraus, dass die Realität widersprüchlicher ist als unser Gehirn sie widerspiegelt, das bei seiner ganzheitlichen Betrachtung zu einer gewissen "Realitätsbegradung" neigt:
"When excessive coherence is kept in check, reality is not as coherent as most board presentations make it seem." (S. 318f.)
So verständlich es ist, dass sich viele Entscheidungsgremien eine eindeutige Empfehlung wünschen und nicht das ewige Einerseits – Andererseits, eine differenzierte und teilweise widersprüchliche Realität lässt sich bedauerlicherweise nicht verlustfrei in Eindeutigkeit ummünzen.
Für den Entscheidungsprozess selbst empfehlen Kahneman & Co. die "Estimate-Talk-Estimate-Method" (S. 319). Auf diese Weise verbinden sie die Unabhängigkeit der Urteile mit dem Nutzen einer sorgfältigen Diskussion. Je nach Gremium kann es sinnvoll sein, die ursprünglichen Einschätzungen nicht öffentlich zu machen, weil sich dann manche Mitglieder leichter tun, ihre Meinung zu ändern. Für die endgültige Entscheidung ist die so lange zurückgestellte Intuition dann ausdrücklich zugelassen:
"Delay intuition, but don't ban it." (S. 323)
In diesem "Mediating Assessments Protocol" sind die verschiedenen Komponenten der Entscheidungshygiene integriert:
"Sequencing information, structuring the decision into independent assessments, using a common frame of reference grounded in the outside view, and aggregating the independent judgments of multiple individuals." (S. 323)
Was ist der optimale Rauschpegel?
Zum Schluss werfen die Autoren etwas überraschend die Frage nach dem optimalen Rauschpegel auf. Das hat jedoch seinen sehr rationalen Hintergrund darin, dass die Reduzierung von Rauschen in der Regel nicht kostenlos zu haben ist. Wie weit man bei der Rauschreduzierung gehen will, ist daher immer auch eine Kosten-Nutzen-Abwägung.
Beispielsweise könnte man die Gerechtigkeit (Rauscharmut) von Klausurnoten verbessern, indem man die Arbeiten von mehreren Lehrern oder Dozentinnen unabhängig voneinander bewerten lässt – aber der Aufwand dafür steht trotz mancher Ungerechtigkeiten im Einzelfall wohl nicht in einem vernünftigen Kosten-Nutzen-Verhältnis. Sinnvoll könnte hingegen sein, den Beurteilern bestimmte Beurteilungskriterien vorzugeben, die zunächst separat zu bewerten sind, bevor eine Gesamtnote gebildet wird.
Um das optimale Rauschniveau zu bestimmen, raten sie zu einem "Noise Audit", sprich, einer Untersuchung, wie hoch der Rauschpegel im konkreten Fall ist, welchen Schaden er hier anrichtet und was seine wichtigsten Ursachen sind. Nur wenn man das versteht, kann man beurteilen, wie wichtig eine Verringerung des Rauschens in diesem Fall wäre und wo praktikable Ansatzpunkte dafür liegen.
Ein spannender und überraschender Gesichtspunkt ist, dass Rauschen auch Vorteile haben kann – wie etwa den, einen gesellschaftlichen Wertewandel zu ermöglichen. Am deutlichsten wird das, wenn man das Urteil von Richtern dem von Algorithmen gegenüberstellt: Algorithmen sind absolut rauschfrei – und damit absolut statisch. Sie liefern immer das gleiche Ergebnis – und blockieren so jede Entwicklung. Algorithmen sind daher ihrer Natur nach konservativ und immun gegen neue Erkenntnisse.
Trotzdem kommen die Autoren abschließend zu einer Bewertung, der man sich nur anschließen kann:
"In many areas, the current level of noise is far too high. It is imposing high costs and producing terrible unfairness. What we have catalogued here is the tip of an iceberg. The law should do much more to reduce those costs. It should combat that unfairness." (S. 360)
Ein entschlosseneres Vorgehen würde freilich voraussetzen, dass Politik und Öffentlichkeit sich erstens des hohen Rauschpegels der allermeisten Entscheidungsprozesse bewusst sind und zweitens deren Kosten. Davon jedoch sind sie wahrscheinlich so weit entfernt wie ich vor der Lektüre dieses wahrlich augenöffnenden Buches. Eine nachdrückliche Leseempfehlung ist daher das Mindeste, was ich zur Rauschreduzierung beitragen kann. Sie sei hiermit gegeben.
|