Lehet-e még hinni a közvélemény-kutatóknak?

Rendkívüli hírlevél
Amit 2021-ben azonnal tudni kell.

A magyarországi politikai közvélemény-kutatásokat jóideje nehéz komolyan venni: a független médiának nincs pénze komoly kutatások finanszírozására, ezért a piac elsorvadt. Az összképen a közpénzen jól tartott kormányközeli intézetek sem javítanak: elkényelmesítette és propagandaeszközzé tette őket a (köz)pénzáradat.

Amerikában viszont tényleg sok pénzt költenek közvélemény-kutatásra, a cégek között óriási a verseny, komoly szaktudás koncentrálódik a területre. Ezért is volt annyira meglepő, hogy 2016-ban a legfontosabb csatatér-államokban, például Michiganben, Pennsylvaniában és Wisconsinban, ahol szinte minden intézet Hillary Clinton győzelmét várta, Trump lett a befutó. Végül épp ezen múlt a választás az elektori kollégiumban, hiába szavazott összességében jóval több amerikai a demokrata elnökjelöltre, mint a republikánusra, ahogy azt a kutatók amúgy minden korábbi elnökválasztásnál pontosabban belőtték.

A tévedéseket az utólagos elemzések legalább négy tényezőnek tudták be:

  • a bizonytalan szavazók az utolsó pillanatban inkább Trump felé hajlottak;
  • a Trump-szavazók részvétele a becsültnél némileg magasabb volt;
  • a kutatók nem foglalkoztak azzal, hogy a magas végzettségű szavazók szívesebben vesznek részt a kutatásokban;
  • és ami a döntőnek tűnt utólag: a fehér szavazók közt Trump népszerűsége a korábbi republikánus jelölteknél tapasztaltnál erősebben függött össze az iskolázottsággal, és ezért az iskolázottabb szavazók nagyobb válaszadási aránya egyben a Clinton-szavazókat is felülreprezentálta a mintákban.

Összességében a kutatók nem tévedtek nagyot, de mivel a győztes személyét rosszul tippelték meg, az előző elnökválasztás a közvéleményben mégis a szakma kudarcaként maradt meg. Amikor három hete, november 4-én kiderült, hogy Floridát a várakozásokkal szemben idén is Trump nyerte, a világsajtó megint temetni kezdte a közvélemény-kutatókat. Amikor pedig kiderült, hogy mégis Biden lett az országos befutó, azt kifogásolták, hogy például Wisconsinban a vártnál sokkal szorosabb lett az eredmény.

Szakemberek sokkoló becsléseket tweeteltek a hibák várható nagyságáról, hitelesnek látszó politikatudósok kezdték téves vádakkal bírálni az FiveThirtyEight-alapító Nate Silver idei előrejelzését és közben dicsérni a már többször cáfolt elméletet a “rejtőzködő Trump szavazókról”.

Pedig 2020-ban a közvélemény-kutatók helyesen jelezték előre, hogy a szavazás másnapján egy Trump győzelem “vörös délibábja” rajzolódhat ki, amit csak lassanként ír majd felül a soha nem látott tömegű, többségében Bidenre leadott levélszavazat. Ugyanezt vetítették előre a tudományos kutatások is.

Ma már eleget tudunk a választási eredményekről ahhoz, hogy az elnökválasztási előrejelzésekről ítéletet lehessen alkotni. Az amerikai közvélemény-kutatások leghíresebb összegzője arra számít, hogy Joe Biden országosan kb. 4,3%-kal fog többet kapni a kb. 160 millió szavazatból, mint Donald Trump.

Ez megdöbbentően közel van az egyik olyan előrejelzéshez, ami a közvélemény-kutatási adatokat szisztematikusan korrigálta más információk alapján.Viszont 3-4%-kal eltér attól a 7,2%-os Biden előnytől, amelyiket az egyik, és attól a 8,4%-tól, amit a másik legtekintélyesebb közvélemény-kutatási összefoglaló jelzett a választás előtti napon. Ami elég nagy hiba: akkora, vagy még nagyobb, mint 2016-ban a 3,1%-os torzítás a demokrata, vagy 2012-ben és 2000-ben a 2,5 illetve 2,6%-os torzítás a republikánus jelölt javára, és jócskán az 1,1%-os 2004-es és 2008-as adat feletti („torzításon” itt a tényleges választási eredmény és a közvélemény-kutatások átlaga közti különbség értendő.)

Persze nagy eltérések vannak az egyes államok közt. Minden választáson van pár állam az 50 közt, ahol halál pontosak a közvélemény-kutatások, a legdurvább hibák pedig általában ott adódnak, ahol kevesebb és olcsóbb kutatás készült, mert eleve lefutottnak látszott a helyi meccs. 2016-ban (és 2018-ban) például Tennessee-ben tért el legjobban a választási eredmény - mintegy 13%-kal – a közvélemény-kutatások átlagában látott Clinton-Trump különbségtől. Idén is alighanem egy kevéssé izgalmas állam, talán Észak-Dakota vizsgálataié lesz ez a dicstelen szerep.

De ha csak a csatatér-államokat nézzük, ahová a figyelem és az erőforrások fókuszálódtak, ott is szembeszökők a komoly hibák.A már említett Wisconsin esete a legdurvább: Biden várhatóan egy százaléknál kisebb előnnyel végez majd, míg a RealClearPolitics és a FiveThirtyEight némileg másképpen képzett utolsó közvélemény-kutatási átlagai 6,7 illetve 8,3 százalékos előnyt mutattak. 

A Wisconsinban és több más csatatérállamban látott torzítások sokkal nagyobbak, mint amire a sajtóban megjelent hibahatárok alapján számítani lehetett. Az alábbi ábra például a választások előtt publikált átlagokat hasonlítja össze azzal, ahogy a szavazatszámlálás november 24-én este állt. Csak az a 14 állam szerepel benne, amelyek 2016-ban és várhatóan 2020-ban is a leginkább befolyásolhatták az elektori kollégium döntését az elnök személyéről. Az ábra Biden százalékos előnyét mutatja Trump előtt. Negatív számok jelzik, ha Trump volt előnyben.

Fotó: Tóka Gábor

Trump hátrányát szinte minden csatatérállamban túlbecsülték. Azt helyesen mutatták a kutatások, hogy hol állt viszonylag jobban Biden. De abban – a pártok saját méréseihez hasonlóan – mindkét kampány irányítóit félrevezették, hogy melyik államokra érdemes a kampány végén a leginkább rágyúrniuk. Sőt, a legnagyobb hibák mintha pont ott (Ohio, Michigan, Wisconsin) keletkeztek volna, ahol már 2016-ban is!

A következő ábrán az látszik, hogy mennyire voltak szisztematikusak a közvélemény-kutatási átlagok hibái négy éve és most. A függőleges tengely mutatja a 2020-as várható hibát az előző ábra előzetes adatai alapján. A vízszintes tengelyen a 2016-os tényleges hibát látjuk.

Pennsylvania, Észak-Karolina, Georgia, és Kolorádó az átló szaggatott vonala alá esik, ami azt jelenti, hogy a 14 államból ebben a négyben kevesebbet tévedtek a Demokrata jelölt javára 2020-ban, mint 2016-ban. Jókorát nőtt viszont a Demokraták túlbecslése Florida, Nevada, Arizona, és Új-Mexikó államokban, ahol – az egy Florida kivételével – még éppen Trump javára tévedtek egy kicsit 2016-ban. Ha ettől a négy, jelentős spanyolajkú népességgel rendelkező államtól eltekintünk, akkor a 2016 és 2020 közötti változások kicsik, és nem mutatnak világos tendenciát.

Fotó: Tóka Gábor

A végleges adatokon alapuló teljes elemzésre még éveket kell várni. De nagyon csábító az ötlet, hogy a Florida-Nevada-Arizona-Új-Mexikó négyes rendhagyó viselkedésének az ott magas népességarányú latinók, azaz a spanyolajkú, latin-amerikai származású választók között idén váratlanul megugrott republikánus szavazatarány és hagyományosan gyengébb válaszadási hajlandóság az oka. A korábbi években a csoport tagjai inkább a demokratákra szavaztak.

Mivel azonban a megkérdezetteket angolul megkereső amerikai közvélemény-kutatásokban nyelvi okok miatt alulreprezentáltak, a korábbi években időről-időre felmerült, hogy Nevadában meg Kaliforniában miattuk tévedhettek a felmérések többnyire a Demokrata jelöltek rovására. Sőt, az idei választás előtt is volt elemző, aki pont emiatt, meg a 2016-os hibák várható fennmaradása miatt várta jó pár államban azt, hogy a pollok alábecsülik majd Donald Trumpot.

A tényleges szavazatmegoszlás 2016 és 2020 közötti változását mutató térképek erősen arra utalnak, hogy

valóban pont a latin-amerikai származású szavazók között zajlott le egy, az országos trendekkel szembemenő választói fordulat Trump irányába.Hova tegyük viszont azt, hogy a felmérések (Coloradót leszámítva) a többi csatatérállamban 2016-ban és 2020-ban is a demokrata jelöltnek kedvezve torzítottak? Az Amerikai Közvélemény-kutatók Egyesülete (AAPOR) által 2017-ben felkért független vizsgálóbizottság minden komolyabb hipotézist alaposan összevetett a hozzáférhető adatokkal, és számos ajánlást fogalmazott meg 2020-ra nézve. Ennek nyomán az iparágban szinte mindenki bevezette a válaszoknak az iskolázottság inverzével való súlyozását.

A súlyozás maga nem újdonság. A közvélemény-kutatók szinte soha nem számolnak minden választ egyformán. Van, amit 2-3-szoros súllyal vesznek figyelembe, másokat meg csak egy fél személy válaszaként, és így érik el azt, hogy a (súlyozott) mintában pontosan előálljanak a vizsgált népességre jellemző nemi, életkori, stb. arányok. Hogy milyen kritériumok szerint súlyoznak, az igazi boszorkánykonyha: inkább megérzés, tapasztalat, lehetőség és a vakszerencse dönt róla, mint tudományos igazságok.

2016 után azért pont az iskolázottság szerinti súlyozás vált sürgetővé, mert az AAPOR vizsgálat úgy találta, hogy Donald Trump színrelépésével mindenekelőtt a közép-nyugati államokban egy jelentős, addig nem igazán érzékelhető különbség alakult ki a jobban és a kevésbé iskolázott fehér szavazók pártválasztásai között. Ezek után pedig már

lényeges lett, hogy a választási közvélemény-kutatásokban addig is jelentősen alulreprezentált iskolázatlanabb szavazók arányát magasabb súlyozással próbálják korrigálni.A „szégyenlős, vagy rejtőzködő Trump szavazókról” szóló elmélet (eszerint a Trump szavazók nem merik bevallani, hogy ki a kedvencük) mellett semmilyen bizonyítékot nem találtak sem akkor, sem azóta, és az idei kampányban is ellentmondtak neki az adatok.

De ha a 2016-os hibákat ki is javították – amivel kapcsolatban azért maradt kétely a New York Times meg a RealClearPolitics szerzői között is –, simán felmerülhettek olyan új nehézségek, amik ugyanolyan tévedésekhez vezettek, mint a 2016-os hibák.

Mi a tanulság? Az biztos, hogy a hibák túl nagyok voltak ahhoz, hogy a közvélemény-kutatásokat ugyanúgy névértéken lehessen figyelembe venni, ahogy eddig. Nagyobbak voltak, mint amekkorára a közvélemény-kutatók a közvéleményt felkészítették. És sehova se vezet, ha a kutatók azzal védik a mundért, hogy a szondák csak egy pillanatfelvételt adnak, nem pedig előrejelzést.

Az embereket azért érdeklik a közvélemény-kutatások, mert a jövőbe akarnak látni. Ha a kutatók nem teszik hozzá a számaikhoz, hogy mit mondanak a jövőről, vagy azt mondják, hogy semmit, akkor senkit nem fognak érdekelni. Legjobb esetben az érdeklődők a közvélemény-kutatók helyett az olyan közvélemény-kutatás összegzőket és választás-modellezőket kezdik majd el olvasni, mint Nate Silver, a RealClearPolitics, az Economist választási kalauza mögött álló tudóscsapat, a New York Times Upshot rovata, és így tovább. A modellezők a különböző kutatásokat elemezve saját értelmezéssel állnak elő a választás várható kimeneteléről.

A közvélemény érdeklődése a közösségi médiás vagy a közgazdasági adatokkal dolgozó modellek felé fordulhat. De hiába vannak közöttük komolyan megalapozottak, idén gyakran még nagyobbat tévedtek, mint a közvélemény-kutatások.

Az egyes közvélemény-kutatásokról szóló beszámolók azért sem jó információforrások, mert indokolatlanul szűk hibahatárokat adnak meg. Egy kétszereplős versenyben az olvasó és a sajtó szeme mindig a két jelölt szavazataránya közti különbségre irányul. Csakhogy e különbség hibahatára másfél-kétszer olyan tág, mint az egy-egy jelölt szavazatarányára vonatkozó hibahatár.

A sokszor emlegetett „ha 1000 fős a minta, akkor max. ±3.5% a hibahatár” mantra egyszerűen nem igaz:a statisztikai elmélet és a tényleges választási közvélemény-kutatások empirikus elemzései is nagyjából kétszer ekkora hibát valószínűsítenek. 

Ugyanis régóta nem egyszerű véletlen mintákkal dolgoznak, hanem egyre inkább a kvótás mintavételre hajazó komplex konstrukciókkal, amik egyre összetettebb súlyozási eljárásokkal próbálják kikeverni a különböző csoportok helyesnek feltételezett arányát a valószínű szavazók vagy az elvben szavazni tudó megkérdezettek között. Évről évre folyamatosan változik, hogy a mintákban pontosan kik vannak alulreprezentálva. A közvélemény-kutatásoknak csak az a szerencséje, hogy a változások elég lassúak ahhoz, hogy némi késéssel le lehessen követni őket. A késés viszont további extra hibákkal jár, melyek messze túllépnek a szokványos mintavételi hiba keretein.

A legnagyobb baj mégis az, hogy a közvélemény-kutatások szakmai szempontból érthető és szinte elkerülhetetlen hibái túl nagyok ahhoz képest, amilyen precíz információra a nyilvánosság vágyik. Sok kutatás átlagolásával elfogadható szintre csökkenthetők a véletlen kilengések, pontosabb képet lehet alkotni a trendekről. Ám választási kutatások ezreinek és választások százainak vizsgálata mutatta meg az Egyesült Államokban és globális összehasonlításban is, hogy a közvélemény-kutatások átlagának az alacsony válaszadási arányok és komplex mintavételi eljárások miatt nem jelentéktelen a hibája: egy amerikai elnökválasztáson például két százalék körül van.

Ha valami nagy változás van a részvételi arányban, a párttáborokat megosztó társadalmi vagy lélektani választóvonalakban, vagy sok szavazó vált át a személyesről a postai szavazásra, akkor két százaléknál alighanem nagyobb a hiba. Pontosan ennek a gondolatmenetnek az alapján két évvel előtte a 2016-os amerikai elnökválasztási bakit is megjósolták.

Szerencsére a hiba iránya egy-egy választás előtt megjósolhatatlan (ha előre lehetne tudni, hogy a republikánusok vagy a demokraták javára téved majd az átlag, akkor még korrekciókat is időben lehetne alkalmazni). Mi több, a közvélemény-kutatások éppolyan jó (vagy éppoly rossz) előrejelzést adnak ma, mint bármikor korábban, mert a módszertani fejlődés eddig még valahogy lépést tartott a csökkenő válaszadási arányok okozta nehézségekkel. Nem olyan megbízhatók, mint ahogy állítják magukról, de jobbat még nem találtak fel.

***

Ez a cikk elsősorban Tóka Gábor az amerikai elnökválasztás tanulságait elemző angol nyelvű cikkén alapul, és vele együttműködésben készült. Tóka a választói magatartás, a kutatás-módszertan és a választási rendszerek szakértője, a Vox Populi választási kalauz szerzője, a Vera és Donald Blinken Nyílt Társadalom Archívum munkatársa.

A szövegben említett hibahatár-átlagok és az átlag-közvélemény-kutatás hibahatára Tóka számításai a FiveThirtyEight oldalán publikált és október 28-november 1 közt gyűjtött adatok illetve az ott bemutatott adatok eredeti megjelenési helyén alkalmazott – véletlen mintát feltételező – hibahatár-számítási módszerek alapján. A Biden-Trump különbség hibája itt azért nem kétszerese a Biden százalék hibájának, mert a FiveThirtyEight.com az egyéb jelöltek szavazatarányát is figyelembe vevő bázist használ. Ők egyébként nem közlik az általuk egy jóval bonyolultabb eljárással becsült közvélemény-kutatási átlag hibáját.