Sondaże trzeba umieć czytać

Okres ściśle przedwyborczy, o sondaż taki czy śmaki człowiek się potyka co i rusz. I ciągle te same głupstwa widzi wypisywane, a to o trendach, a to o mijankach, a to o wpływie jakiejś konwencji, afery czy aferki, czy może aferuni tylko. A że dzisiaj lekką dyskusję miałem w temacie, więc trochę dla przypomnienia (i ochłodzenia emocji) słów i obrazków kilka o tym, czym naprawdę są wyniki takiego sondażu i o czym nam mówią.

Na początek proste przypomnienie, sondaż przedwyborczy to badanie na próbie około 1000-1100 osób, które pyta się o zdanie/opinię, np. na kogo zagłosują. I pomińmy tu takie kwestie jak:

metodę kontaktu – wywiad osobisty (nie każdy się przyzna do poglądów), telefoniczny (chętniej, ale też nie do końca), za pomocą komputera (nie każdy ma), …, każda metoda ma swoje wady i zalety, każda będzie na wyniki wpływała;

sposób dobierania ludzi – losowo (np. z bazy PESEL, z jakiejś listy – komercyjnej bazy danych, ograniczonej do tych, co swoje dane gdzieś udostępnili), generowany losowo numer telefonu (nie każdy ma telefon, część osób ma kilka numerów), każda niedoskonałość takiej listy będzie wpływać na wyniki
moment badania (przed jakimś wydarzeniem, po, w poniedziałek a może sobotę, w wakacje albo przed świętami, itp. itd.)
…

Zakładamy zatem, że mamy idealnie dobieraną losowo próbę i całkowicie szczere odpowiedzi wylosowanych. Pierwsze pytanie jest pytaniem o to, czy gdyby się wybory odbywały, to czy dana osoba wzięłaby w nich udział. I dopiero ci, którzy zadeklarowali udział są pytani o poparcie konkretnej partii. A zatem w faktycznym badaniu preferencji wyborczych próba jest znacznie mniejsza, zazwyczaj 500 do 750 osób. Przyjmując zatem próbę podstawową 1100 osób i deklarowaną frekwencję 60% liczba pytanych daje nam 660 osób.

Drugie założenie jest następujące, mamy dwie główne partie mające w rzeczywistości 33% i 30% poparcia. Błąd maksymalny wynosi dla nich odpowiednio 3.59 i 3.50 punktu procentowego (tzn. na 95% nie będzie większy, średnio w jednym badaniu na dwadzieścia będzie). I teraz prosty eksperyment, generujemy sobie wyniki kilku sondaży dla tak określonych warunków (proste formuły w Excelu =ROZKŁ.DWUM.ODWR(660;33%;LOS())/660 dla pierwszej partii i =ROZKŁ.DWUM.ODWR(660;30%;LOS())/660 dla drugiej).

Przykładowy wynik dla takich 10 wygenerowanych sondaży na obrazku.

Występuje tu jedynie podstawowy błąd sondażu czyli błąd losowy, innych w tym przypadku nie ma. A jak widzimy wyniki potrafią być bardzo różne.

I teraz proponuję eksperyment, ponaciskać sobie klawisz F9 (przeliczenie arkusza) i otrzymamy kolejne generowane wyniki „sondaży”. Poniższy wygląda całkiem normalnie.

Ale tu trafiły się takie, które wyraźnie wskazywałyby na podobne poparcie partii.

Hmmmm, a tu mamy (jeśli by to były sondaże w kolejnych dniach czy tygodniach) jakieś trendy dla ostatnich i w końcówce „mijankę” notowań partii.

I tak dalej, dalej i dalej, wygenerować może nam się wszystko.

I to jest, podkreślę raz jeszcze, tylko wynik niedoskonałości metody, badania populacji na podstawie próby. Wiemy po sondażu tak naprawdę bardzo niewiele. To co obserwujemy jest tylko mignięciem jakiegoś obrazu na zmąconej falami tafli wody. Dopiero wpatrując się w wiele takich obrazów (uśredniając np. sondaże robione według jednej metodologii) coś możemy bliżej powiedzieć o poparciu poszczególnych partii, ale też bez pewności.

A jeszcze jak dołożymy do tego inne czynniki, inne błędy mogące mieć wpływ na wyniki, to może lepiej dać sobie po prostu na wstrzymanie z wynikami kolejnego, rewolucyjnego sondażu?

Więc nie dziwmy się, że wyniki różnych, nawet renomowanych firm, czy tej samej firmy robione dzień po dniu są rozbieżne. Wręcz powinny być. Jak widzę, że firmy zaczynają pokazywać podobne wyniki to zapala mi się światełko ostrzegawcze.

Sondaże trzeba umieć czytać

Zobacz również:

Statystycznie (nie)istotne

Powyborcza noc cudów? Raczej cudna rozrywka dla znających liczby

„Z kim do łóżka?” czyli sondaż a (nie)prognoza

Uważać na wykresy

Zostaw komentarz Anuluj pisanie odpowiedzi