Читать книгу Pułapki myślenia - Daniel Kahneman - Страница 14
CZĘŚĆ II
Heurystyki i błędy (skrzywienia) poznawcze
ROZDZIAŁ → 10
Prawo małych liczb
ОглавлениеBadanie zapadalności na raka nerek przeprowadzone we wszystkich 3 141 hrabstwach Stanów Zjednoczonych ujawniło pewną dziwną prawidłowość. Zapadalność okazała się najniższa głównie na wiejskich, rzadko zaludnionych obszarach stanów Środkowego Zachodu, Zachodu i Południa, gdzie tradycyjnie głosuje się na Partię Republikańską. Jak należy to interpretować?
Przez kilka ostatnich sekund twój umysł był aktywny, przy czym głównie działał System 2. W celowy sposób przeszukałeś pamięć i sformułowałeś pewne hipotezy. Wymagało to umysłowego wysiłku: twoje źrenice się rozszerzyły, a tętno w wymierny sposób przyspieszyło. Jednak System 1 też nie próżnował, bo działanie Systemu 2 opierało się na faktach i sugestiach zaczerpniętych z pamięci skojarzeniowej. Zapewne odrzuciłeś myśl, że przed rakiem chronią mieszkańców republikańskie poglądy. Bardzo możliwe, że w końcu skupiłeś się na tym, iż tereny o niskiej zapadalności na raka to głównie obszary wiejskie. Statystycy Howard Wainer i Harris Zwerling, od których zaczerpnąłem ten przykład, komentują: „Byłoby rzeczą łatwą i kuszącą wyciągnąć stąd wniosek, że mała liczba zachorowań na raka wynika bezpośrednio ze zdrowego, wiejskiego stylu życia: braku zanieczyszczeń powietrza i wody oraz dostępu do świeżej żywności wolnej od sztucznych dodatków”132. Ma to sens.
Teraz weźmy pod uwagę hrabstwa, w których zapadalność na raka nerek jest najwyższa. Jak się okazuje, większość z nich to także tereny wiejskie, rzadko zaludnione i położone w tradycyjnie republikańskich stanach Środkowego Zachodu, Zachodu i Południa. Wainer i Zwerling z przymrużeniem oka komentują: „Łatwo byłoby wywnioskować, że zwiększona liczba zachorowań wynika bezpośrednio z ubogiego, wiejskiego stylu życia: braku dobrej opieki medycznej, tłustej diety, nadużywania alkoholu i papierosów”. Oczywiście coś tu nie gra. Wiejski styl życia nie może jednocześnie tłumaczyć wysokiej i niskiej zapadalności na raka nerek.
Otóż kluczowym czynnikiem nie jest to, czy dane hrabstwo leży na terenach wiejskich albo czy częściej głosuje się w nim na republikanów. Liczy się to, że hrabstwa wiejskie mają mało mieszkańców. Główna lekcja płynąca z tego badania nie dotyczy epidemiologii, ale trudności, jakich naszemu umysłowi nastręcza statystyka. W jednej formie myślenia System 1 jest doskonały: automatycznie i bez wysiłku znajduje związki przyczynowe między zdarzeniami, nawet jeśli są w rzeczywistości błędne. Słysząc o wysokiej zapadalności na raka, od razu zakładasz, że musi istnieć konkretna przyczyna, dla której hrabstwa różnią się od siebie – że różnica musi mieć jakiś powód. Jak się jednak zaraz przekonamy, System 1 nie radzi sobie z faktami „czysto statystycznymi”, które zmieniają prawdopodobieństwo określonych wyników, ale nie w sposób przyczynowo-skutkowy.
Zdarzenie losowe z definicji wymyka się wyjaśnieniu, jednak całe zbiory losowych zdarzeń rzeczywiście cechuje duża regularność. Wyobraź sobie sporej wielkości urnę wypełnioną kulkami. Połowa kulek jest czerwona, reszta biała. Następnie wyobraź sobie, że jakaś bardzo cierpliwa osoba (albo robot) na oślep wyciąga z urny cztery kulki, zapisuje, po ile kulek każdego koloru zostało wylosowane, a następnie wrzuca kulki z powrotem do urny i zaczyna od nowa. Kiedy zsumujesz wyniki, przekonasz się, że wynik „dwie czerwone, dwie białe” zdarza się (niemal dokładnie) sześć razy częściej od wyniku „cztery czerwone” albo „cztery białe”. Ten związek jest faktem matematycznym. Wynik wielokrotnego losowania kulek z urny można przewidzieć z taką samą pewnością, jak wynik uderzenia młotkiem w kurze jajo: nie da się przewidzieć w najdrobniejszych szczegółach, na jakie kawałki rozpadnie się skorupka, ale z grubsza wiadomo, co się stanie. Mamy tu jednak pewną różnicę – przyjemne uczucie przyczynowości, które odczuwasz na myśl o waleniu młotkiem w jajo, całkowicie znika, kiedy myślisz o losowaniu kulek.
W przykładzie z rakiem nerek ważny jest też inny fakt statystyczny. Wyobraź sobie, że dwoje cierpliwych rachmistrzów na przemian losuje kulki z urny, o której mówiłem przed chwilą. Za każdym razem Jan wyciąga z niej cztery kulki, a Julia siedem. Oboje zapisują, w którym losowaniu udało im się wyciągnąć próbkę jednorodną – czyli same kulki białe albo same czerwone. Jeśli będą powtarzać losowanie wystarczająco długo, Jan zaobserwuje wyniki skrajne częściej niż Julia (dokładnie osiem razy częściej, bo oczekiwane prawdopodobieństwo obu zdarzeń wynosi odpowiednio 12,5 procent i 1,56 procent). Znowu – nie mamy tu młotka ani przyczynowości, lecz fakt matematyczny: próbka zawierająca cztery kulki częściej da wynik skrajny niż próbka zawierająca siedem kulek.
Teraz wyobraźmy sobie całą ludność Stanów Zjednoczonych jako kulki w gigantycznej urnie. Niektóre z nich oznaczone są symbolem RN („rak nerek”). Kolejno losujesz próbki kulek, którymi zaludniasz poszczególne hrabstwa. Próbki, którymi zaludnisz hrabstwa wiejskie, będą mniej liczne od pozostałych. Tak samo jak w przypadku Jana i Julii, wyniki skrajne (bardzo niska albo bardzo wysoka zapadalność na raka) częściej będą się pojawiać się w hrabstwach słabo zaludnionych. Oto całe wyjaśnienie.
Zaczęliśmy od faktu, który domagał się znalezienia przyczyny: w poszczególnych hrabstwach występują duże systemowe różnice dotyczące zapadalności na raka nerek. Wyjaśnienie, które zaproponowałem, jest natury statystycznej: wyniki skrajne (czy to niskie, czy wysokie) częściej pojawiają się w małych próbkach niż w dużych. Nie jest to wyjaśnienie przyczynowo-skutkowe. Niewielka liczba ludności nie chroni przed rakiem ani go nie wywołuje; sprawia tylko, że zapadalność na raka okazuje się znacznie wyższa (albo znacznie niższa) niż w większej populacji. Głęboka prawda w tym przypadku mówi, że nie ma czego wyjaśniać. W rzeczywistości zapadalność na raka w słabo zaludnionym hrabstwie nie jest w danym roku ani niższa, ani wyższa, a tylko robi takie wrażenie w wyniku przypadkowego losowania. Gdyby tę analizę powtórzyć rok później, zaobserwujemy tę samą ogólną prawidłowość (wyniki skrajne częściej pojawią się w małych próbkach), jednak w hrabstwach, gdzie przed rokiem nowotwory pojawiały się często, tym razem wcale nie musi występować wysoka zapadalność. Jeśli tak będzie, różnice pomiędzy hrabstwami gęsto zaludnionymi a wiejskimi okażą się nie rzeczywistym faktem, lecz czymś, co naukowcy nazywają „artefaktem”, czyli obserwacją wygenerowaną przez pewien aspekt przyjętej metody badawczej – w tym wypadku przez różnicę w wielkości próbek.
Możliwe, że ta historia cię zaskoczyła, ale nie była dla ciebie jakimś objawieniem. Nie od dzisiaj masz świadomość, że wyniki oparte na dużych próbkach są bardziej miarodajne od wyników opartych na małych – tak działa prawo wielkich liczb, o którym słyszeli nawet ludzie, którzy nie splamili się wiedzą statystyczną. Jednak wiedza o czymś nie jest kwestią typu „wiem albo nie wiem”. Być może stwierdzisz, że poniższe obserwacje odnoszą się również do ciebie:
→ W badaniu zapadalności na raka nie rzuciło ci się od razu w oczy, że istotną rolę odegra cecha „obszary rzadko zaludnione”.
→ Zaskoczył cię (choć trochę) rozmiar różnicy w wynikach między próbkami złożonymi z czterech i z siedmiu kulek.
→ Nawet teraz musisz dokonać pewnego wysiłku umysłowego, żeby uświadomić sobie, że dwa poniższe zdania mają dokładnie takie samo znaczenie:
→ Duże próbki są precyzyjniejsze niż małe.
→ Małe próbki częściej niż duże dają skrajne rezultaty.
Pierwsze zdanie wyraźnie brzmi sensownie, ale dopóki nie ogarniesz intuicyjnie znaczenia jego drugiej wersji, tak naprawdę nie będziesz rozumieć zdania pierwszego.
Krótko mówiąc: owszem, wiedziałeś, że wyniki oparte na dużych próbkach są precyzyjniejsze, ale teraz być może rozumiesz już, że nie wiedziałeś tego zbyt dobrze. Nie jesteś pod tym względem wyjątkiem. Pierwsze badanie, które przeprowadziliśmy z Amosem, pokazało, że nawet doświadczeni badacze mają słabą intuicję statystyczną i nie najlepiej rozumieją skutki wielkości próbki.
Prawo małych liczb
Moja współpraca z Amosem na początku lat siedemdziesiątych zaczęła się od dyskusji na temat tego, czy ludzie bez przygotowania statystycznego są dobrymi „statystykami intuicyjnymi”. Amos opowiedział uczestnikom mojego seminarium o badaczach z Uniwersytetu Michigan, których zdanie na temat statystyki intuicyjnej było ogólnie optymistyczne. Miałem do tej kwestii silny stosunek emocjonalny, bo brałem ją bardzo do siebie: zdążyłem wtedy odkryć, że jestem marnym statystykiem intuicyjnym i nie chciało mi się wierzyć, że jestem gorszy od innych.
Dla psychologa różnice wynikające z opierania się na próbkach nie są zwykłą ciekawostką; są nieustannym utrapieniem i kosztowną przeszkodą, która może zamienić dowolny projekt badawczy w czystą loterię. Wyobraźmy sobie, że chcesz potwierdzić hipotezę, iż statystyczna sześciolatka ma bogatsze słownictwo od statystycznego rówieśnika płci męskiej. Hipoteza ta jest prawdziwa dla całości populacji – dziewczynki statystycznie znają więcej słów. Jednak poszczególne dzieci są bardzo różne, więc możesz trafić na próbkę, w której nie będzie widać bezspornej różnicy, albo nawet chłopcy osiągną lepszy wynik. Jeśli jesteś badaczem, taki wynik będzie kosztowny, bo zmarnujesz czas i pracę, a i tak nie uda ci się potwierdzić prawdziwości hipotezy. Jedynym sposobem na zmniejszenie tego ryzyka będzie użycie odpowiednio licznej próbki. Badacze, którzy wybierają zbyt małą próbkę, są zdani na łaskę ślepego trafu.
Istnieje dość prosta procedura matematyczna, która pozwala ustalić ryzyko błędu dla próbki określonej wielkości, jednak utarło się, że psycholodzy decydują o liczności próbki nie na podstawie wyliczeń, lecz własnej fachowej oceny, która często okazuje się niedoskonała. Na krótko przed dyskusją z Amosem czytałem artykuł, który w dość dramatyczny sposób wykazywał błąd często popełniany przez badaczy (nawiasem mówiąc, badacze popełniają go po dziś dzień). Autor artykułu podkreślał, iż psychologom często zdarza się wybierać próbki tak małe, że ryzyko niepotwierdzenia prawdziwej hipotezy wynosi aż 50 procent133! Żaden badacz o zdrowych zmysłach nie zaakceptowałby takiego ryzyka. Błędne decyzje psychologów na temat liczności próbki można było w wiarygodny sposób wyjaśnić tezą, że biorą się one z częstych intuicyjnych nieporozumień dotyczących możliwego zakresu wariacji w próbce.
Artykuł był dla mnie szokiem, bo częściowo wyjaśniał problemy, z którymi się borykałem we własnych badaniach. Tak jak większości psychologów rutynowo zdarzało mi się dobierać za małe próbki i często otrzymywałem bezsensowne wyniki. Teraz zrozumiałem dlaczego: dziwne wyniki były w rzeczywistości artefaktami mojej metody badawczej. Błąd był o tyle krępujący, że sam prowadziłem zajęcia ze statystyki i wiedziałem, jak należy wyliczyć wielkość próby pozwalającą zredukować ryzyko niepowodzenia do akceptowalnego poziomu – a jednak nigdy nie zastosowałem wyliczeń, żeby ustalić właściwą wielkość próbki. Planując eksperymenty, tak jak inni psycholodzy ufałem tradycji i własnej intuicji, nie zastanawiając się zbytnio nad problemem. Zanim jeszcze Amos pojawił się na naszym seminarium, doszedłem do wniosku, że moje statystyczne przeczucia są zawodne i w dyskusji szybko się zgodziliśmy, że optymiści z Michigan nie mieli racji.
Razem z Amosem spróbowaliśmy ustalić, czy jestem jedynym durniem, czy też może durnie tacy jak ja stanowią większość. Postanowiliśmy sprawdzić, czy podobne błędy popełnią również inni badacze, których dobraliśmy pod kątem fachowej wiedzy matematycznej. Stworzyliśmy kwestionariusz opisujący realistyczne sytuacje badawcze, w tym próby potwierdzenia wyników innych udanych eksperymentów. W kwestionariuszu zwróciliśmy się do badaczy o wybranie odpowiedniej wielkości próbki, ocenę związanego z taką decyzją ryzyka niepowodzenia badania oraz udzielenie porady hipotetycznej doktorantce planującej własne badania. Odpowiedzi zebraliśmy podczas spotkania Towarzystwa Psychologii Matematycznej od grupy uczestników o dużej wiedzy statystycznej (w tym autorów dwóch podręczników statystyki). Wyniki były jasne: nie byłem jedynym durniem. Znaczna większość respondentów popełniała dokładnie takie same błędy jak ja. Stało się oczywiste, że nawet eksperci nie zwracają odpowiedniej uwagi na wielkość próbki.
Nasz pierwszy wspólny artykuł zatytułowaliśmy z Amosem Belief in the Law of Small Numbers134 [Wiara w prawo małych liczb]. Z przymrużeniem oka wyjaśnialiśmy w nim, że „intuicyjne domysły dotyczące losowych próbek wydają się zgodne z prawem małych liczb, które mówi, że prawo wielkich liczb stosuje się również do liczb małych”. Zamieściliśmy także zdecydowane zalecenie, żeby badacze podchodzili do „własnych intuicji statystycznych z należytą ostrożnością i wszędzie, gdzie to możliwe, kierowali się nie odczuciami, lecz wyliczeniami”135.
Preferowanie pewności zamiast wątpliwości jako błąd poznawczy
W telefonicznym badaniu opinii publicznej przeprowadzonym na próbie 300 osób emerytowanych 60 procent ankietowanych poparło prezydenta.
Jak streścisz powyższy komunikat? Prawie na pewno powiesz, że „Osoby starsze popierają prezydenta”. Takie jest sedno komunikatu. Szczegóły, które pomijasz – że badanie przeprowadzono telefonicznie, że wzięło w nim udział 300 respondentów – są same w sobie nieinteresujące; to tylko informacje kontekstowe, które prawie nie zwracają uwagi. Gdyby próba była większa, zdanie streściłbyś dokładnie tak samo. Oczywiście zwróciłbyś uwagę, gdyby liczba ankietowanych była kompletnie absurdalna, np. „w ankiecie przeprowadzonej na próbie sześciu (albo sześciu milionów) osób emerytowanych…”. O ile jednak nie zajmujesz się zawodowo statystyką, podobnie podejdziesz do próby złożonej ze 150 i z 3 000 osób. To właśnie mam na myśli, mówiąc, że „ludzie nie mają odpowiedniej wrażliwości na wielkość próby”.
Komunikat na temat ankiety telefonicznej zawiera dwa rodzaje informacji: samą opowieść oraz jej źródło. Naturalnie skupiasz się raczej na opowieści niż na miarodajności wyników. Kiedy miarodajność jest w oczywisty sposób niska, komunikat zostaje zdyskredytowany. Gdyby ktoś ci powiedział, że „stronniczy ośrodek przeprowadził nieprawidłowe i obarczone licznymi błędami badanie opinii publicznej wskazujące, że osoby w starszym wieku popierają prezydenta…”, oczywiście odrzucisz wyniki badania i nie wejdą one w skład twoich osobistych przekonań. „Stronnicze badanie” i „fałszywe wyniki” staną się nową opowieścią o kłamstwach w polityce. W takich bezdyskusyjnych przypadkach możesz odmówić komunikatowi wiary. Ale czy potrafisz dostatecznie rozróżniać zdania „Przeczytałem w »New York Timesie«, że…” a „Ktoś mówił w kuchni, że…”? Czy twój System 1 potrafi stopniować wiarę? Zasada „Istnieje tylko to, co widzisz” sugeruje, że tak nie jest.
Jak pisałem wcześniej, System 1 jest nieskory do wątpienia. Wytłumia wieloznaczności i spontanicznie konstruuje jak najspójniejsze opowieści. Jeżeli komunikat nie zostanie natychmiast zanegowany, wywołane nim skojarzenia rozprzestrzeniają się w umyśle tak, jakby był prawdziwy. System 2, który potrafi utrzymywać w umyśle wykluczające się nawzajem możliwości, potrafi wątpić. Jednak pielęgnowanie wątpliwości wymaga większego wysiłku niż uleganie poczuciu pewności. Prawo małych liczb to tylko jeden z wielu przejawów ogólnego błędu poznawczego polegającego na tym, że umysł faworyzuje pewność względem wątpliwości. W kolejnych rozdziałach zobaczymy jeszcze wiele przykładów tego zjawiska.
Nasza silna skłonność do przyjmowania na wiarę, że małe próbki będą ściśle przypominać większe populacje, z których pochodzą, sama w sobie również jest częścią szerszej opowieści: otóż mamy skłonność do postrzegania rzeczywistości w sposób przesadnie spójny i uładzony. Przesadna wiara badaczy, że kilka obserwacji może dostarczyć wartościowej wiedzy, jest blisko spokrewniona z efektem halo, czyli często spotykanym wrażeniem, że świetnie znamy i rozumiemy osobę, o której w rzeczywistości wiemy bardzo niewiele. Na podstawie strzępków informacji System 1 konstruuje szczegółowy obraz, nie przejmując się faktami. Maszyna do wyciągania pochopnych wniosków zachowuje się tak, jakby wierzyła w prawo małych liczb. Na poziomie ogólnym ten mechanizm wytwarza przesadnie spójną i sensowną reprezentację rzeczywistości.
Przypadki i przyczyny
Maszyneria skojarzeniowa doszukuje się przyczyn. Trudność związana z prawidłowościami statystycznymi bierze się stąd, że takie prawidłowości wymagają innego podejścia. Zamiast się skupiać na tym, jak doszło do konkretnego zdarzenia, w podejściu statystycznym pytamy, co mogło się wydarzyć innego. Nie istnieje żaden szczególny powód, dla którego stało się to, co się stało – po prostu dane zdarzenie zostało wybrane losowo spośród możliwych opcji.
Kiedy stajemy przed koniecznością oceny przypadkowości zdarzeń autentycznie losowych, skłonność do myślenia przyczynowo-skutkowego naraża nas na poważne błędy. Weźmy płeć sześciorga dzieci, które kolejno rodzą się w jednym szpitalu. Kolejność narodzin chłopców (C) i dziewczynek (D) będzie oczywiście przypadkowa – poszczególne zdarzenia są od siebie niezależne, a płeć chłopców i dziewczynek urodzonych w ostatnich godzinach w żaden sposób nie wpływa na płeć kolejnego noworodka. Teraz weźmy pod uwagę następujące trzy sekwencje:
C – C – C – D – D – D
D – D – D – D – D – D
C – D – C – C – D – C
Czy każda z tych sekwencji jest jednakowo prawdopodobna? Odpowiedź intuicyjna – czyli „Oczywiście, że nie!” – jest błędna. Ponieważ mamy do czynienia z niezależnymi zdarzeniami, a prawdopodobieństwo narodzin C i D jest (z grubsza) jednakowe, każda możliwa sekwencja sześciu kolejnych narodzin będzie dokładnie tak samo prawdopodobna jak każda inna. Nawet teraz, kiedy już wiesz, że tak jest, nadal wydaje ci się to sprzeczne z intuicją, bo tylko trzecia sekwencja wydaje się autentycznie przypadkowa. Jak należy się spodziewać, sekwencję C – D – C – C – D – C uznajemy za znacznie bardziej prawdopodobną od dwóch pozostałych. Jesteśmy poszukiwaczami prawidłowości, wierzymy w spójny świat, w którym regularności (np. kolejne narodziny sześciu dziewczynek) nie robią wrażenia przypadku, lecz działania jakiejś mechanicznej przyczyny albo świadomej intencji. Nie spodziewamy się znaleźć prawidłowości w wytworach losowego procesu, więc kiedy odkrywamy coś, co wygląda na zasadę, szybko odrzucamy myśl, że proces był autentycznie losowy. Procesy losowe tworzą wiele sekwencji, które przekonują ludzi, że tak naprawdę proces nie mógł być losowy. Można przypuszczać, że skłonność do zakładania przyczyny wiąże się z ewolucyjnymi korzyściami. Stanowi ona część naszej ogólnej czujności odziedziczonej po przodkach. Automatycznie wypatrujemy możliwości, że w otoczeniu doszło do jakiejś zmiany. Lwy mogą się pojawiać na równinie w przypadkowych odstępach czasu, ale bezpieczniej będzie zauważyć choćby i pozorne zwiększenie się liczby stad i zareagować odpowiednio, nawet jeśli w rzeczywistości liczba lwów jest wynikiem losowych fluktuacji przypadkowego procesu.
Czasami powszechne niezrozumienie natury losowości ma istotne konsekwencje. We wspólnym artykule poświęconym reprezentatywności zacytowaliśmy z Amosem statystyka Williama Fellera, który ilustruje łatwość, z jaką ludzie dostrzegają nieistniejące prawidłowości. Kiedy w czasie drugiej wojny światowej na Londyn spadał intensywny ostrzał rakietowy, powszechnie wierzono, że bombardowanie nie może być kwestią przypadku, bo rozkład uderzeń rakiet naniesiony na mapę zawierał wyraźne luki. Niektórzy podejrzewali, że w nietkniętych obszarach mogą przebywać umieszczeni tam niemieccy szpiedzy136. Tymczasem staranna analiza statystyczna dowiodła, że rozkład trafień rakiet był typowy dla losowego procesu – typowe było nawet to, że wywoływał silne wrażenie nielosowości. „Niewyszkolone oko – zauważa Feller – postrzega losowość jako regularność lub skłonność do tworzenia skupisk”.
Niedługo potem miałem okazję zastosować we własnym życiu lekcję wyciągniętą z lektury Fellera. W 1973 roku wybuchła wojna Jom Kippur. Mój jedyny znaczący wkład w wysiłek wojenny kraju polegał na tym, że doradziłem wysokim oficerom izraelskich sił lotniczych wstrzymanie pewnego dochodzenia. W początkowym okresie wojna powietrzna układała się dla Izraela źle, bo egipskie pociski ziemia-powietrze okazały się nieoczekiwanie skuteczne. Lotnictwo izraelskie ponosiło wysokie straty, które wydawały się nierówno rozłożone. Powiedziano mi np., że z tej samej bazy wystartowały dwie eskadry, z których jedna utraciła cztery maszyny, a druga – ani jednej. Wszczęto specjalne dochodzenie w nadziei, że uda się ustalić, co niefortunna eskadra robi nie tak. Nie było powodów, aby z góry sądzić, że jedna z eskadr okaże się skuteczniejsza od drugiej, nie stwierdzono też żadnych różnic operacyjnych, ale oczywiście istniały losowe różnice dotyczące życia pilotów – jeśli mnie pamięć nie myli, mówiono o tym, jak często poszczególni piloci odwiedzają rodziny na przepustce i jak prowadzone są w ich jednostkach odprawy. Poradziłem dowództwu, żeby się pogodziło z faktem, że różnice w poniesionych stratach są wynikiem ślepego trafu, i zaprzestało przesłuchań pilotów. Rozumowałem, że najbardziej prawdopodobną odpowiedzią jest zwykły pech, więc losowe poszukiwanie nieoczywistych przyczyn będzie skazane na niepowodzenie, a ostatnią rzeczą, jakiej potrzeba pilotom ze zdziesiątkowanej eskadry, jest obarczenie ich poczuciem, że wina leży po stronie ich samych i poległych kolegów.
Kilka lat później Amos i jego dwaj doktoranci, Tom Gilovich i Robert Vallone, wywołali poruszenie, ogłaszając badania poświęcone błędnym wyobrażeniom na temat przypadkowości w koszykówce137. Trenerzy, kibice i sami zawodnicy powszechnie wierzą, że czasami zawodnik „ma gorącą rękę” albo „jest w gazie”, czyli że skuteczność jego rzutów chwilowo wzrasta. Trudno się oprzeć takiemu wnioskowi. Kiedy gracz zdobywa trzy albo cztery kosze z rzędu, nieodparcie nasuwa się wytłumaczenie przyczynowe: gracz jest w gazie i łatwiej mu zdobywać punkty. Do tej oceny dostosowują się gracze obydwu zespołów – koledzy z drużyny częściej podają piłkę zawodnikowi będącemu w gazie, a przeciwnicy częściej ratują się podwojeniem. Analiza tysięcy sekwencji rzutów przyniosła rozczarowujący wniosek: w zawodowej koszykówce zarówno przy rzutach z gry, jak i osobistych, nie istnieje nic takiego jak „gorąca ręka” czy „bycie w gazie”. Oczywiście niektórzy gracze są skuteczniejsi od innych, jednak sekwencje rzutów celnych i niecelnych spełniają wszystkie wymogi losowości. Gorąca ręka istnieje wyłącznie w umyśle obserwatorów, którzy zawsze są zbyt skłonni widzieć ład i przyczynowość w losowych wydarzeniach. Gorąca ręka to tylko potężne i bardzo rozpowszechnione złudzenie poznawcze.
Częścią tej opowieści jest również publiczna reakcja na wyniki badania. Ze względu na zaskakujące wnioski media doniosły o badaniu, jednak jego wyniki spotkały się z powszechną niewiarą. Kiedy Red Auerbach, legendarny trener zespołu Boston Celtics, usłyszał o Gilovichu i jego badaniu, rzucił: „Ale kto to w ogóle jest? No badanie jakieś zrobił, i co z tego? Mnie to wisi i powiewa”. Skłonność do dostrzegania prawidłowości w losowych zdarzeniach jest nieodparta – a już na pewno silniejsza niż jakiś tam gość ze swoim badaniem.
Złudzenie prawidłowości na różne sposoby wpływa na życie także poza koszykarskim parkietem. Ilu potrzeba lat, żeby się przekonać, że doradca inwestycyjny jest wyjątkowo zdolny? Ile spółek musi przejąć firma, zanim zarząd uzna, że dyrektor generalny ma wyjątkowy talent do takich operacji? Prosta odpowiedź brzmi, że kierując się intuicją, raczej popełnisz błąd, gdy uznasz losowe wydarzenie za systemową prawidłowość. Za często – o wiele za często – jesteśmy skłonni odrzucać pogląd, że w życiu wiele rzeczy jest kwestią czystego przypadku.
Zacząłem ten rozdział od badania zapadalności na raka nerek w Stanach Zjednoczonych. Przykład pochodzi z książki przeznaczonej dla wykładowców statystyki, jednak poznałem go z zabawnego artykułu autorstwa dwóch statystyków, których cytowałem już wcześniej, Howarda Wainera i Harrisa Zwerlinga. W artykule autorzy skupili się na ogromnej, wynoszącej około 1,7 miliarda dolarów inwestycji, jaką fundacja Billa i Melindy Gatesów podjęła w celu zbadania intrygujących ustaleń dotyczących szkół osiągających najlepsze wyniki w nauczaniu. Niejeden badacz poszukiwał już sekretu dobrej edukacji, próbując znaleźć najlepsze szkoły w nadziei, że uda się odkryć, co je odróżnia od innych. Jeden z wniosków badania mówi, że statystycznie najlepsze szkoły są niewielkie – np. w badaniu porównującym 1 662 szkoły działające w stanie Pensylwania w pierwszej pięćdziesiątce znalazło się aż sześć szkół małych, czyli cztery razy więcej, niżby to wynikało ze średniej. Te dane skłoniły Fundację Gatesów do wyłożenia znacznej sumy na tworzenie małych szkół, czasami przez dzielenie istniejących placówek na mniejsze. W przedsięwzięciu wzięło też udział kilka innych dużych instytucji dobroczynnych, takich jak Annenberg Foundation czy Pew Charitable Trust, a także specjalny program o nazwie Smaller Learning Communities Program działający przy amerykańskim Departamencie Edukacji.
Zapewne czujesz, że ma to intuicyjny sens. Łatwo znaleźć przyczynowo-skutkowe wyjaśnienie, dlaczego małe szkoły zapewniają lepszą edukację i wydają jeden rocznik znakomitych uczniów za drugim, skoro łatwiej jest w nich zapewnić uczniom uwagę i indywidualnie zachęcać ich do nauki niż w większej szkole. Niestety, analiza przyczynowo-skutkowa jest tu bez sensu, bo nie zgadzają się fakty. Gdyby statystycy, którzy przekazali wyniki Fundacji Gatesów, zadali sobie pytanie, jakie cechy charakteryzują szkoły najgorsze, też przekonaliby się, że szkoły marne są zazwyczaj małe. Prawda jest taka, że małe szkoły nie są statystycznie lepsze; osiągają tylko bardziej zmienne wyniki. Właśnie duże szkoły – dodają Wainer i Zwerling – zwykle osiągają lepsze wyniki, szczególnie w klasach wyższych, w których cenna staje się szeroka oferta programowa.
Najnowsze osiągnięcia psychologii kognitywnej sprawiają, że dziś widzimy wyraźnie coś, co mogliśmy z Amosem tylko niejasno przeczuwać: prawo małych liczb jest częścią dwóch szerszych opowieści dotyczących działania umysłu.
→ Nadmierne zaufanie do małych prób statystycznych to tylko jeden z przykładów ogólnego złudzenia poznawczego polegającego na tym, że większą uwagę zwracamy na treść komunikatów, a mniej skupiamy się na informacjach dotyczących miarodajności komunikatu, co sprawia, że nasz obraz rzeczywistości jest prostszy i bardziej spójny, niżby to uzasadniały empiryczne dane. Przeskakiwanie do pochopnych wniosków jest bezpieczniejszą formą aktywności w świecie wyobraźni niż w rzeczywistości.
→ Statystycznie uzyskujemy wiele obserwacji, które wydają się aż prosić o wyjaśnienie przyczynowo-skutkowe, choć w rzeczywistości go nie mają. Wiele faktów dotyczących rzeczywistości bierze się z czystego przypadku, m.in. z losowych skutków doboru próby. Przyczynowe wyjaśnienia zdarzeń losowych zawsze okazują się błędne.
Jak rozmawiać o prawie małych liczb
„Rzeczywiście, odkąd przyszedł nowy dyrektor, zrobiliśmy trzy filmy i wszystkie okazały się hitami, ale nie da się jeszcze powiedzieć, czy rzeczywiście ma szczęśliwą rękę”.
„Nie uwierzę, że ten nowy trader jest geniuszem, dopóki mi statystyk nie wyliczy, jakie jest prawdopodobieństwo, że jego passa jest czysto losowa”.
„Mamy za mało obserwacji, żeby wyciągać wnioski. Nie kierujmy się prawem małych liczb”.
„Nie zamierzam ujawniać wyników eksperymentu, dopóki nie zbierzemy dość danych. Inaczej będziemy pod presją, żeby przedwcześnie wyciągnąć wnioski”.
132
„Byłoby (…) wolnej od sztucznych dodatków”: Howard Wainer i Harris L. Zwerling, Evidence That Smaller Schools Do Not Improve Student Achievement, „Phi Delta Kappan” 88 (2006), s. 300‒303. Przykład ten omawiają Andrew Gelman i Deborah Nolan w książce Teaching Statistics: A Bag of Tricks (Nowy Jork: Oxford University Press, 2002).
133
ryzyko niepotwierdzenia prawdziwej hipotezy wynosi aż 50 procent!: Jacob Cohen, The Statistical Power of Abnormal-Social Psychological Research: A Review, „Journal of Abnormal and Social Psychology” 65 (1962), s. 145‒53.
134
Belief in the Law of Small Numbers: Amos Tversky i Daniel Kahneman, Belief in the Law of Small Numbers, „Psychological Bulletin” 76 (1971), s. 105‒10.
135
„intuicji statystycznych … lecz wyliczeniami”: To rozróżnienie pomiędzy intuicją a wyliczeniami robi wrażenie wczesnej zapowiedzi rozróżnienia pomiędzy Systemem 1 i 2, jednak wtedy byliśmy jeszcze dalecy od perspektywy, którą przedstawiam w niniejszej książce. Przez „intuicję” rozumieliśmy wszystko, co nie jest wyliczeniem, czyli dowolną nieformalną metodę wnioskowania.
136
niemieccy szpiedzy: William Feller, Introduction to Probability Theory and Its Applications (Nowy Jork: Wiley, 1950).
137
przypadkowości w koszykówce: Thomas Gilovich, Robert Vallone i Amos Tversky, The Hot Hand in Basketball: On the Misperception of Random Sequences, „Cognitive Psychology” 17 (1985), s. 295‒314.