Statystyka jest jedną z mniej intuicyjnych dziedzin matematyki z jaką możemy się spotkać poza studiami ściśle matematycznymi. To dlatego, że wszystkie jej twierdzenia dotyczą przypadków z którymi się nie spotkaliśmy.
Ostatnio jadąc do centrum, zauważyłem na jednym z budynków reklamę studiów na kierunkach ścisłych. Reklama ta głosiła „Nie ma szczęścia, jest tylko matematyka”. Chwytliwe, choć zupełnie niezgodne z naszym codziennym doświadczeniem. Bo przecież tyle razy mieliśmy szczęście – na przykład przechodząc na czerwonym świetle nie stało sięgam nic złego a nawet nie byliśmy za tu ukarani. Na egzaminie starzało się, że pytania po prostu nam podeszły, albo udało sięgam spotkać właściwą osobę we właściwym momencie. Gdzie tu matematyka?
Mówi się, że istnieją trzy rodzaje kłamstwa: małe kłamstwa, wielkie kłamstwa i statystyki. Dlaczego? Może dlatego, że to z czym mamy do czynienia na co dzień odbiega od tego co mówią statystyki. Wynika to często z życzeniowego podejścia do informacji. Jeśli w coś nie chcemy wierzyć – po prostu odrzucamy taka informacje, i bazujemy tylko na tych „faktach autentycznych” które potwierdzają nasze tezy.
Jeśli na przykład statystyki mówią, że po prowadzeniu pojazdów mechanicznych po spożyciu alkoholu często dochodzi do wypadków, podczas gdy nikt z naszych znajomych mimo regularnej jazdy po paru piwach nie miał wypadku – w statystyki nie będziemy chcieli uwierzyć, a informacje medialne na temat tragicznych skutków takiego postępowania będziemy traktować jedynie jak ciekawostki pracowicie je ignorując w ocenie ryzyka.
A propos oceny ryzyka – to jeśli prawdopodobieństwo wypadku w czasie nocnego powrotu z dyskoteki wynosi dla trzeźwego kierowcy jakieś 0,05% (czyli jeden na dwa tysiące powrotów zawiera jakieś kłopoty – niekoniecznie tragiczne), to czy jego wzrost nawet o 200% (czyli do poziomu jakieś 0,15%) naprawdę jest tak problematyczny? Jedno i drugie jest bardzo mało prawdopodobne.
W naszej codziennej praktyce – operujemy liczbami które są nieco większe. Jeśli na przykład co czwarta osoba na ziemi jest chińczykiem – to coś nam to już mówi, choć z drugiej strony jeśli się trochę rozejrzymy dookoła, to jakoś trudno w to uwierzyć. I ty trafiamy na kolejny problem z wynikami badań statystycznych – dotyczą one konkretnych zbiorów które nie muszą przypominać zbiorów z którymi mamy do czynienia.
Bardzo dobrze ilustrują to statystyki dotyczące zdawalności egzaminów oraz przyjęć do szkół. Tu operujemy już liczbami w które można uwierzyć i które są mniej więcej wymierne. Jeśli na przykład 60% chętnych zostaje przyjętych do szkoły do której się staramy, to mamy pewne szanse, choć do pewności jest nam daleko. Pamiętajmy, jednak że statystyka nie mówi o prawdopodobieństwie. To nie jest tak, że losowo wybrane 40% się nie dostanie. Egzamin (lub bardziej ogólnie – proces rekrutacyjny) nie jest loteria, a przynajmniej nie w całości. O tym, czy będziemy w 60% najlepszych wyników decyduje już nie ślepy los, ale nasze przygotowanie nad którym możemy popracować. Dlatego warto ocenić swoje siły i na podstawie statystyk ocenić własne szanse. Jest to trudne, bo nie znamy umiejętności pozostałych kandydatów którzy będą się, wraz z nami, starali przeskoczyć tą barierę. Ale tu mogą nam pomóc statystyki i dochodzimy do tego do czego statystyka może być naprawdę potrzebna – do dość dokładnego oszacowania szansy powodzenia.
Jest tylko pewien problem z dostaniem się do danych. Potrzebujemy nie tylko informację o tym jaka część kandydatów się dostaje – ale także – na przykład – jakie są statystyki przyjęć z poszczególnych szkół. To więcej mówiąca informacja, bo pokazuje która szkoła jak przygotowuje do tego konkretnego egzaminu. Przydatne będą statystyki mówiące o zdawalności matur z interesujących nasz przedmiotów w tych szkołach – bo matura jako egzamin zewnętrzny da nam informacje o poziomie szkoły a więc o jakość przygotowania poszczególnych kandydatów, a także niejawnie, w połączeniu z poprzednimi informacjami – o wymaganiach egzaminacyjnych i ich korelacji z wymaganiami maturalnymi.
Wygląda to na skomplikowane, i choć istnieje specjalna gałąź matematyki zajmująca się takimi problemami – to można także z takich danych skorzystać używając dostępnego wszystkim zdrowego rozsądku. Wyniki nie będą tak dokładne, ale dadzą nam więcej informacji, nie tylko o naszych szansach, ale także o możliwości zwiększenia tych szans.
Dobrym przykładem takiej analizy statystycznej są informacje o zdawalności egzaminów na prawo jazdy. Wiadomo jakie są statystyki, ale znane są także statystyki poszczególnych szkół jazdy. Wynik te dość dobrze pokazują jakość tych szkół, bo o przyjęciu na kurs decyduje tylko wola kandydata, a podawanie do publicznej wiadomości statystyk zdawalności, szanse wyrównuje – jeśli ktoś czuje się niepewnie i średnio radzi sobie nawet z rowerem, a ruch miejski budzi w nim przerażenie – będzie się starał skończyć taką szkołę, w której zdaje niemal 100% kończących kurs – a posiadanie takich kursantów mogłoby obniżyć statystyki zdawalności.
Niestety znajomość narzędzi używanych do tworzenia danych statystycznych doprowadziło do odkrycia metod jak takie statystyki fałszować. Wystarczy, że taka szkoła jazdy składa się prawnie z dwóch szkół, w których pracują ci sami instruktorzy, które prowadzą wspólne wykłady, ale które oddzielnie zbierają statystyki zdawalności. I ci kandydaci na kierowców którzy sobie doskonale radzą nabijają statystyki pierwszej szkoły – tej których wyniki są publikowane jako wabik, a inni – nawet nie wiedzą że chodzą do innej szkoły w której znaleźli się na skutek pewnych przesunięć na papierze.
Wspomniałem wcześniej o statystyce matematycznej – warto więc wspomnieć o kilku pojęciach o których zazwyczaj w statystykach pokazywanych w mediach – niewiele się mówi, a które są nie mniej istotne jak na przykład poziom ufności określający to jak dokładne są nasze wyniki opracowania danych statystycznych. Co ciekawe danych tych często się już nie publikuje, bo określenie „poziom ufności” mogłoby zakładać, że danym nie należy ufać lub z powody niezrozumienia tego pojęcia przez publikujących dane statystyczne w mediach.