Dość często spotykam się z nadużywanym pojęciem istotności statystycznej, z których to słów często jedno lub drugie nawet ginie. Pojawiają się one np. w kontekście kolejnego sondażu „wzrost notowań partii Y jest statystycznie istotny” czy tez prezentacji wyników badań „istnieje statystyczny statystycznie istotny związek między …”. Czy jednak do końca zdajemy sobie sprawę, co tak naprawdę znaczy to pojęcie? Dla statystyka sprawa niby jest jasna, choć sam po sobie wiem, jak często zdarza mi się zapominać o prawdziwym znaczeniu tych słów przy interpretacji wyników sondaży.
A różnica między pojęciem istotny (za sjp.pl 1. podstawowy, zasadniczy, znaczący; 2. rzeczywisty, prawdziwy, istniejący) a istotny statystycznie jest kolosalna. Mniej więcej na tym poziomie, jak obśmiewana za poprzedniego ustroju różnica między sprawiedliwością a sprawiedliwością socjalistyczną, którą porównywano do różnicy między krzesłem a krzesłem elektrycznym.
Zacznijmy od tego, że pojęcie to pojawia się w sytuacji, gdy wyniki z (losowej) PRÓBY są uogólniane na populację, z której została wylosowana. Tak dzieje się między innymi właśnie w sondażach, gdzie na podstawie zdania najczęściej ok. 1000 osób formułowane są wnioski o poglądach w całej populacji. Dużo to czy mało to temat na kolejny wpis, przejdźmy więc dalej.
Próba jest losowa, zatem mogą się trafiać próby dobrze odzwierciedlające populację jak i takie, w której populacja będzie przedstawiona jak w krzywym zwierciadle. To jest dokładnie tak samo, jak z rzucaniem monetą. Jeżeli rzucimy 100 razy, to najczęściej liczba orłów i reszek będzie oscylowała wokół 50, ale przecież może się trafić i tak, że wyrzucimy same orły bądź same reszki (raz na w przybliżeniu 1 267 650 600 228 230 000 000 000 000 000 razy).
Testowanie hipotez statystycznych jest czynnością stosunkowo prostą. Sprowadza się w skrócie do tego, żeby podzielić możliwe wyniki na dwie grupy. Pierwsza to te najbardziej prawdopodobne możliwe wyniki, które potwierdzają nam zakładany w hipotezie (zwanej zerową) brak związku czy różnic. Druga natomiast to ta część wyników, które należą do grupy najmniej prawdopodobnych (najczęściej przyjmuje się, że jest ich 5% wszystkich możliwych – to tzw. poziom istotności). Otrzymując dla próby wynik z grupy pierwszej stwierdzamy, że brak jest podstaw do odrzucenia hipotezy, a więc związek/różnica jest nieistotna statystycznie. Wynik z drugiej grupy „zaprzecza” testowanej hipotezie i pozwala stwierdzić występowanie STATYSTYCZNIE ISTOTNEGO związku czy różnicy.
Na przykładzie: powiedzmy, że chcemy sprawdzić czy moneta nadaje się do losowania, czyli czy prawdopodobieństwo wyrzucenia orła i reszki (mówiąc mądrzej awersu i rewersu) to 50%. Gdyby wypadło od 40 do 60 orłów to test statystyczny potwierdziłby, że jest dobra. Natomiast gdyby wypadło mniej niż 40 lub więcej niż 60 orłów (prawdopodobieństwo tego to właśnie niecałe 5%) stwierdzilibyśmy, że moneta jest prawdopodobnie do luftu, bo w sposób STATYSTYCZNIE ISTOTNY wynik odbiega od 50%. Na marginesie, można popełnić też inny błąd (tzw. drugiego rodzaju) bo przecież monetą, na której nadmiernie często wypada orzeł, też może trafić się wynik od 40 do 60 orłów i uzna się ją wtedy za dobrą.
Weźmy inny przykład, trochę z kosmosu, no ale w końcu UFO ludzi ponoć porywa, więc skoro porywa to po coś to robi. Bazując na podstawie wylosowanej (i porwanej) próby 20 kobiet, z których jedna okazała się być w ciąży i 20 mężczyzn, z których żaden nie był w ciąży zielony niebieski ludzik przy pomocy metod statystyki matematycznej ustala, czy istnieje jakiś związek między płcią a faktem bycia bądź nie bycia w ciąży. I na podstawie statystycznego testu niezależności chi-kwadrat ustalił, że brak jest STATYSTYCZNIE ISTOTNEGO związku między płcią a byciem w stanie błogosławionym (czyli równouprawnienie w pełni?).
W tym momencie padnie zarzut, że statystyka kłamie etc. Nie, po pierwsze statystyka nie kłamie, kłamią i manipulują ci, którzy się nią w takich celach posługują. Po drugie ten wynik testowania jest jak najbardziej prawidłowy. Gdy rzuca się 5 razy monetą wynik 1/5 orłów (20%) jest jak najbardziej prawdopodobny, zdarzy się nieco rzadziej niż raz na 6 prób. Co innego, gdy rzucamy 50 razy, tu wynik 10/50 orłów (nadal 20%) zdarzy się rzadziej niż raz na 100 tys. prób. Tak więc w przypadku naszego ufologicznego testowania po prostu próba jest na tyle mała, że różnica między liczbą kobiet w ciąży a liczbą mężczyzn w tym stanie mogła powstać w sposób przypadkowy.
Pojęcie istotny rozumiemy jako znaczący, duży. Pojęcie ISTOTNY STATYSTYCZNIE oznacza tylko i wyłącznie, że różnica czy związek są na tyle duże, że raczej nieprzypadkowe. Z naciskiem na słowo raczej.
Prosze o odpowiedz na pytanie ”Czy jesli wynik badania jest istotny statystycznie to znaczy, ze nie mozna go przypisac jedynie czynnikom losowym?”
Nie, nadal może być wynikiem czynnika losowego.