Artsiom Klunin
Minulý mesiac som zachytil v jednej facebookovej skupine diskusiu, v ktorej členovia skupiny kritizovali výsledky sociologického prieskumu. Jedným z argumentov bolo to, že prieskumu sa zúčastnilo 1000 ľudí, zatiaľ čo už len v predmetnej skupine je niekoľkokrát viac používateľov. A tí s výsledkami nesúhlasia.
Skutočne vie 1000 ľudí dostatočne presne reprezentovať názory celej krajiny? A aká veľká je pravdepodobnosť, že nastane chyba? Súčasná teória pozerá na toto riziko chyby v rámci celkovej chyby prieskumu, pričom jej súčasťou je aj chyba reprezentatívnosti. Inak povedané, nereprezantatívna vzorka je taká, ktorá nepredstavuje skúmanú cieľovú populáciu a teda ani nemôže zachytávať nálady a názory celej populácie.
Dajme si príklad. Povedzme, že potrebujeme spraviť prieskum o sociálnych a ekonomických podmienkach života osamelých rodičov na Slovensku. Potrebujeme pripraviť vzorku respondentov a respondentiek a kolega nám spomína, že má kontakt na združenie osamelých matiek. Toto by nám veľmi zjednodušilo prípravu prieskumu, avšak je tu veľké riziko vzniku troch základných chýb reprezentatívnosti: chyba pokrytia, chyba výberu a chyba neodpovedania.
Chyba pokrytia
Prvá chyba nastáva v prípade, keď naši respondenti a respondentky správne nepokrývajú cieľovú populáciu.
Nedostatočné pokrytie znamená, že časť populácie nám jednoducho chýba. Napríklad sa rozhodneme kontaktovať združenie osamelých matiek, avšak budú nám stále chýbať osamelí ocovia, lebo našou cieľovou populáciou sú osamelí všetci rodičia, nie len matky. Zároveň členkami združenia môžu byť sociálne aktívne matky, čo znamená, že nepokryjeme veľkú časť cieľovej populácie, ktorá nie je taká aktívna. V prípade, že rozhodneme odoslať dotazník elektronicky na e-mail členkám združeniam, vynecháme respondentky, ktoré nemajú vlastný e-mail alebo napríklad ho zabudli uviesť v prihláške do organizácie.
Môže sa stať aj to, že niektoré členky uviedli dve elektronické adresy, alebo nastála chyba a boli dvakrát zaregistrované ako členky združenia. V tomto prípade sa môžeme baviť o chybe prekrytia.
Navyše, sa môže stať aj to, že niektoré osamelé matky si našli partnera a už technicky nemusia byť v životnej situácii osamelej matky. V tomto prípade by boli časťou vzorky napriek tomu, že už nepatria do cieľovej populácie. Došlo by k chybnému pokrytiu, ktoré niektorí výskumníci označujú tiež ako chybné prekrytie.
Výberová chyba
Výberová chyba nastáva, lebo sledujeme iba časť populácie, nie celú populáciu. Preto, jedným z dôležitých faktorov je veľkosť vzorky, ktorá súvisí s hladinou spoľahlivosti (s akou istotou to vieme povedať) a intervalom spoľahlivosti (ako sa výsledky vzorky odlišujú od výsledkov cieľovej populácie). Predstavme si, že počet domácnosti s osamelými rodičmi na Slovensku je 58-tisíc. Vieme osloviť 1000 náhodne vybraných respondentov z 1000 rozličných domácností. V tomto prípade hladina spoľahlivosti bude 95 % a interval spoľahlivosti 3 %. Čo to znamená? Ak nám napríklad prieskum povie, že 57 % respondentov má finančné problémy v prípade neočakávaných výdavkov, berúc do úvahy našu hladinu a interval spoľahlivosti vieme povedať, že s 95 % spoľahlivosťou 54 až 60 % respondentov (57 % ±3 %) má finančné ťažkosti v prípade neočakávaných výdavkov.
Je to podobné aj, napríklad, v prieskumoch preferencií politických strán. Ak našou cieľovou populáciou sú občania Slovenska s pravom voliť a máme vzorku 1000 respondentov, rovnako hladina spoľahlivosti bude 95 % a interval spoľahlivosti 3 %. To znamená, že ak politická strana dostane v prieskume 7 %, znamená to, že s 95 % spoľahlivosťou vieme povedať, že túto stranu by volilo 4 až 10 % slovenských voličov. Predvolebný prieskum, ktorý nameral politickej strane 7 %, bude stále presný aj v prípade, ak sa strana nakoniec nedostane do parlamentu so ziskom len 4,5 %. Aj preto je dobré veriť práve takým agentúram, ktoré transparente uvádzajú hladinu a interval spoľahlivosti.
Chyba neodpovedania
Predpokladajme, že sme sa vyrovnali s chybami pokrytia cieľovej populácie aj s chybou výberu a rozoslali sme tisíc emailov tisíc respondentkám – členkám združenia osamelých matiek. Môže sa však stať, že dotazník vyplní len 100 respondentiek. Týmto sa nám výrazne zmenší vzorka a namiesto 1000 respondentiek máme len 10 % z cieľového počtu. Toto je príklad chyby neodpovedania, ktorá môže robiť ďalšie problémy, lebo je možné, že respondentky, ktoré sa zúčastnili prieskumu, sa systematicky odlišujú od tých, ktoré dotazník nevyplnili. A to vysoko pravdepodobne skreslí výsledky.
Znamenajú tieto možné chyby, že prieskumy sú apriori nespoľahlivé? Nie, pretože s týmito chybami sa dá vyrovnať. Napríklad zavedením rozličných kvót (pohlavie, miesto bydliska a pod.) môžeme riešiť problém nedostatočného pokrytia. Taktiež môžeme finančne odmeniť respondentov, aby sme znížili riziko chyby neodpovedania. Chyba však určite nastane, ak budeme chcieť skúmať názor obyvateľstva celej krajiny, no vzorka sa bude skladať iba z členov jednej špecifickej facebookovej skupiny.