Miary zjawiska niedostępności a jakość danych sondażowych

Ze zjawiskiem niedostępności związane są trzy istotne parametry – odsetek realizowalności próby (response rate) wraz ze swoim dopełnieniem – wskaźnikiem frakcji jednostek niedostępnych (nonresponse rate), oraz wskaźnik błędu systematycznego związanego z występowaniem jednostek niedostępnych (nonresponse bias). W tej części przyjrzymy się bliżej tym miarom oraz ich własnościom i wzajemnym relacjom. Omówiony zostanie także związek parametrów z jakością danych sondażowych.

Odsetek realizowalności próby (response rate) i wskaźnik frakcji jednostek niedostępnych (nonresponse rate)

Odsetek realizowalności próby (response rate) w swojej najogólniejszej i najczęściej spotykanej postaci (stosowanej również w niniejszej pracy) charakteryzuje skuteczność realizacji próby. Wartość parametru informuje nas, jaką część całkowitej liczebności próby stanowią wywiady (lub ankiety) zrealizowane.

Przez n oznaczmy całkowitą liczebność próby. Niech n oznacza liczbę zrealizowanych wywiadów lub ankiet, zaś no liczbę przypadków, które okazały się niedostępne, tak aby n = n0 + n}. Wówczas odsetek realizowalności próby oblicza się zgodnie z równością:

Dopełnieniem odsetka realizowalności próby jest wskaźnik frakcji jednostek niedostępnych (nonresponse rate), który zdaje sprawę z tego, jaka część założonej próby okazała się niedostępna:

Parametry te mogą przyjmować wartości z przedziału zamkniętego od 0 do 1 i zachodzi pomiędzy nimi związek funkcyjny: RR + NR = 1, ponieważ: n0 + n1 = n.

Definicje te są tylko pewnymi wariantami parametrów, które choć spotykane pod identycznymi lub podobnymi nazwami, często bardzo się od siebie różnią. Lessler i Kalsbeek (1993) przytaczają dziewięć różnych sposobów obliczania odsetka realizowalności próby. Wiąże się to z faktem, iż frakcj ę jednostek niedostępnych można rozbić ze względu na przyczyny niedostępności i niekiedy nie uwzględnia się wszystkich tych przyczyn przy obliczaniu parametrów. Nie będę tu przytaczać wszystkich dziewięciu zasad obliczania parametru, ale warto przyjrzeć się kilku podstawowym przyczynom, aby zrozumieć, na jakiej zasadzie tworzone są różne warianty odsetka realizowalności próby. Przyczyny niedostępności i związane z nimi zależności zostaną omówione dokładniej w dalszych rozdziałach.

Schemat na rysunku 2.4.1.1 pokazuje podstawowe kategorie przyczyn niedostępności w badaniu sondażowym realizowanym na próbie adresowej lub imiennej. W ramach jednostek niedostępnych można wyróżnić dwie frakcje – osób, z którymi nie udało się nawiązać kontaktu, oraz takich, z którymi nawiązano kontakt i mimo to nie wzięli oni udziału w badaniu. Wśród przyczyn, dla których niemożliwe było nawiązanie kontaktu z respondentem największy udział mają tzw. „puste adresy” – czyli adresy błędne, wskazujące na pustostany lub na lokale inne niż mieszkalne. Ponadto do tej grupy klasyfikuje się zgony respondentów (przyczyny te spotyka się przy próbach imiennych). Brak kontaktu występuje również przy nieobecności respondenta – tymczasowej lub długotrwałej. Wśród przyczyn niezrealizowania wywiadów po nawiązaniu kontaktu pojawiają się odmowy a także niedyspozycje (choroba, nietrzeźwość).

Rysunek 2.4.1.1 Podział przyczyn niedostępności w badaniu sondażowym na próbie adresowej lub imiennej.

W zależności od potrzeby często zamiast ogólnej postaci odsetka realizowalności próby oblicza się wskaźnik kooperacji (cooperation rate). Chodzi tu o to, jaka frakcja z próby po nawiązaniu kontaktu jest skłonna do kooperacji i bierze udział w badaniu. Dlatego też w mianowniku parametru nie uwzględnia się całkowitej liczebności próby, a jedynie te przypadki, w których nawiązano kontakt z respondentem:

gdzie k0 to liczba przypadków, w których z różnych przyczyn nie nawiązano kontaktu z respondentem (błędny adres, zgon respondenta, nieobecność tymczasowa lub stała), zaś ki to liczba przypadków, w których mimo nawiązania kontaktu z respondentem wylosowanym do badania nie udało się zrealizować wywiadu.

Można także posługiwać się innymi parametrami obliczanymi na podstawie rozbicia przyczyn niezrealizowania wywiadów – na przykład wyłączając z mianownika wyłącznie „puste adresy”. Oczywiście zróżnicowanie komponentów opisanych dotąd parametrów zależy przede wszystkim od operacjonalizacji na etapie doboru próby, od samego doboru próby (przy niektórych metodach pewne kategorie się nie pojawią).

Lessler i Kalsbeek w przykładzie ilustrującym wspomniane wcześniej dziewięć sposobów definiowania i obliczania odsetka realizowalności próby otrzymali niezwykle zróżnicowane wyniki – od 0,05 do 0,93. To bardzo ważna obserwacja, zwłaszcza przy porównaniach wartości parametrów dla różnych badań. Jak piszą Lessler i Kalsbeek wielkość odsetka realizowalności próby może być częściowo wyjaśniona przez sposób definiowania parametru oraz sposób jego obliczenia na podstawie tej definicji (Lessler, Kalsbeek 1993, s. 113). Dlatego tak ważna jest informacja, w jaki sposób autor danego badania definiuje odsetek realizowalności próby.

Operacjonalizacja przyczyn niedostępności przedstawiona na rysunku 2.4.1.1 pozwala także na obliczanie składowych wskaźnika frakcji jednostek niedostępnych – udziału w całkowitej próbie „pustych adresów”, zgonów, odmów etc – każda z przyczyn może być odrębnym wskaźnikiem. Miarę realizowalności próby można obliczać nie tylko dla całego badania – z powodzeniem można wykorzystywać ten parametr do porównywania efektywności realizacji obliczaj ąc warunkowe odsetki realizowalności w zależności od ankietera, regionu geograficznego lub innych kategorii (Lessler, Kalsbeek 1993).

Skuteczność realizacji próby (a zatem także wartość odsetka realizowalności próby) wynika przede wszystkim z wysiłku „w terenie”, a zatem związana jest z pracą ankieterską, zasadami aranżacji wywiadów i kontaktów z respondentami, czasu realizacji i wielu innych czynników. Na realizację badania mają także wpływ schemat doboru próby, aktualność operatów losowania oraz metoda przeprowadzania badania. Powyższe problemy zostaną szerzej omówione w rozdziale piątym.

Przy niektórych metodach zbierania danych problematyczne staje się obliczenie odsetka realizowalności próby, lub poszczególnych jego składowych. Na przykład przy sondażach internetowych niezwykle rzadko mamy możliwość określić, z jaką frakcją wśród jednostek niedostępnych „nawiązano kontakt” – tzn. ile de facto osób przeczytało informacj ę o badaniu i musiało podjąć decyzję o udziale.

Miary zjawiska niedostępności do tej pory omówione dotyczyły wyłącznie badań realizowanych na próbach losowych, lub badań wyczerpuj ących, których wspólną cechą jest wykorzystanie operatu, spisu badanych jednostek. W badaniach realizowanych na próbach celowych, które z takich spisów nie korzystaj ą, możliwości mierzenia zjawiska niedostępności są znacznie bardziej ograniczone. Istnieją jednak pewne narzędzia, dzięki którym pomiar taki jest możliwy.

Pewnym wskaźnikiem trudności realizacyjnych jest miara liczby kontaktów, które trzeba nawiązać, aby przeprowadzić jeden efektywny wywiad. Można też różnicować przyczyny niezrealizowania wywiadu w zależności od tego, z wypełnieniem których kwot ankieterzy mają największy problem – która ze zmiennych definiujących kwoty sprawia, że trzeba szukać kolejnych respondentów. Wreszcie dzięki rejestracji liczby nawiązanych kontaktów w celu przeprowadzenia n założonych efektywnych wywiadów można obliczyć wskaźnik realizowalności dla prób nielosowych:

gdzie n to założona liczebność próby, zaś k to liczba kontaktów, które trzeba było nawiązać zanim doszło do przeprowadzenia n efektywnych wywiadów.

Oczywiście powyższa metoda ma swoje ograniczenia. Wielkość wskaźnika realizowalności dla prób nielosowych zależeć może od wielu czynników, między innymi od charakteru kwot – im większe wymagania nakładamy na próbę celową, tym trudniej będzie je wypełnić. Ponadto duże znaczenie ma w tym wypadku rzetelność ankietera – w zależności od sytuacji ankieter może oszukiwać zaniżając lub zawyżając liczbę kontaktów potrzebnych do przeprowadzenia efektywnego wywiadu. Przy trudnych kwotach może też zdarzyć się, iż ankieterzy nie skontaktuj ą się z osobami, które powinny uczestniczyć w badaniu, a przeprowadzą wywiady z kimś, kto nie do końca odpowiada kryteriom. Wówczas otrzymamy zaniżoną wielkość wskaźnika realizowalności dla prób nielosowych i zafałszowany obraz rzeczywistych trudności realizacyjnych.

Na zakończenie warto jeszcze raz zwrócić uwagę na interpretację wskaźnika realizowalności próby i jego dopełnienia. Miary te służą do podsumowania efektywności realizacji badania i określenia frakcji jednostek niedostępnych. W żadnej ze swoich wersji nie pozwalaj ą jednak na estymację błędów, nie daj ą możliwości określenia wielkości błędu systematycznego (Lessler, Kalsbeek 1993).