Sul sito ufficiale dei sondaggi elettorali è apparso il dettaglio della indagine IPR Marketing sulla fiducia degli italiani nei confronti del governo (entrate nel sito e cliccate sull'indagine del 22/7/2010 di IPR Marketing). Un resoconto del sondaggio è stato pubblicato da Repubblica il 20 luglio. La figura qua sotto riassume i risultati che vorrei discutere. Sotto la tabella spiego le ragioni della mia perplessità e le mie domande.
Il campione complessivo, veniamo informati, consta di 1000 casi ''Panel, rappresentativo dell'universo di riferimento disaggregato per sesso, età, area di residenza e ampiezza comune di residenza''. Il dato aggregato è un calo nella fiducia verso il presidente del consiglio dal 49% nel luglio 2009 al 39% nel luglio 2010.
Prima di andare avanti, faccio un esempio il più semplice possibile per spiegare le ragioni dei mie dubbi. Immaginate che un popolazione sia esattamente divisa in due sottopopolazioni, chiamiamole per comodità i vecchi e i giovani. I vecchi e i giovani sono presenti in ugual numero ma hanno opinioni radicalmente differenti in politica. Per esempio, solo il 30% dei giovani pensa che il politico A sia degno di fiducia, mentre ben il 70% dei vecchi pensa che A meriti fiducia. Fatemi ipotizzare anche che queste opinioni siano stabili nel tempo e che anche le percentuali di vecchi e giovani siano stabili, 50% ciascuna categoria di età.
Ora, immaginiamo che tu sia un sondaggista che cerca di catturare l'evoluzione dell'opinione nei confronti del politico A. Fai un sondaggio nel luglio 2009 dove scopri ''la verità'', ossia il politico A gode del consenso del 30% dei giovani, del 70% dei vecchi e, siccome il tuo campione riflette fedelmente la composizione della società tra vecchi e giovani, ti risulta un consenso aggregato di 0,5x30%+0,5x70%=50%. Fai poi lo stesso sondaggio nel luglio 2010. Scopri, giustamente, che né i giovani né i vecchi hanno cambiato opinione. Però non ti accorgi che il tuo campione non rispecchia fedelmente la percentuale di giovani e vecchi. E' successo che stavolta hanno risposto più giovani del normale, per cui il tuo campione è formato per il 60% da giovani e per il 40% da vecchi.
Bene, qual è il consenso aggregato che risulta dal tuo campione? E' 0,6x30%+0,4x70%=46%. Ossia, il tuo dato aggregato ti dice che il politico A ha perso il 4% dei consensi, nonostante in nessun sottogruppo abbia perso consensi. Ovviamente un caso del genere può verificarsi solo quando cambiano i pesi delle varie sottopopolazioni. Ma è anche abbastanza chiaro che un sondaggista dovrebbe essere sospettoso di un risultato del genere, guidato unicamente dal fatto che nel sondaggio più recente la composizione del campione è diversa dalla vera composizione della popolazione. Come ''bilanciare'' un campione, correggendo per questo tipo di problemi è questione complicata e ciascuna casa di sondaggi ha i suoi metodi, che purtroppo non vengono spiegati nel sito ufficiale dei sondaggi. Però, ripeto, variazioni nel dato aggregato che possono essere spiegate solo da variazioni nella selezioni dei sottocampioni dovrebbero far suonare un campanello d'allarme.
Ora che la natura del problema è, si spera, chiarita possiamo ritornare al sondaggio IPR Marketing-Repubblica. Guardate i dati disaggregati per classi di età. Vedrete che tutte le classi di età manifestano un calo di consenso inferiore al 10%: -3 per i 18-34 anni, -9 per i 33-54 anni e -9 per gli ultra 55. Un fatto simile è impossibile se il peso delle classi di età nel campione 2010 è uguale a quello del campione 2009, dato che in tal caso la variazione del campione aggregato deve essere uguale alla media ponderata delle variazioni per le classi di età con pesi uguali nel 2009 e nel 2010. Quindi il risultato deve essere stato generato dal fatto che le classi di età con il più basso consenso per Berlusconi (i più giovani) hanno un peso nel campione 2010 superiore a quello del campione 2009. Quindi la mia domanda a IPR Marketing-Repubblica è: potete per favore spiegare come sono variati tali pesi, spiegando quale era la numerosità delle diverse classi di età nel campione di luglio 2009 e nel campione luglio 2010? Quanta parte della riduzione nel consenso a Berlusconi è dovuto al cambiamento di tali pesi?
Si noti che esattamente lo stesso problema si pone nella disaggregazione per ampiezza di centro abitato. Anche lì tutte le classi mostrano un peggioramento inferiore al 10%, per cui il risultato deve essere dovuto a una diversa composizione del campione. Anche qui, si potrebbe avere qualche dettaglio in più?
Ad essere del tutto onesto a me generano parecchi dubbi anche la disaggregazione per area territoriale (possibile che un calo complessivo del 10% possa essere spiegato da un -11% al sud a fronte di consenso invariato al nord?) e per titolo di studio (possibile che il -12% dei laureati, che sono una netta minoranza della forza lavoro, più che compensi le variazioni positive degli altri?). Anche qui quindi non sarebbe male rendere pubbliche le numerosità dei sottocampioni nel 2009 e nel 2010.
Grazie in anticipo per la risposta e un cordiale saluto.
I miei 2 cents: il campione e' normalizzato per eta', popolazione dei centri, forse per appartenenza partitica, non per area di residenza, ne' per titolo di studio, ne' per condizione professionale.
Per ''normalizzato per età'' intendi che in ogni campione la proporzione degli intervistati di una certa classe di età rispecchia quella della popolazione? Se è così non si spiega come un -10% aggregato possa risultare da -3 giovani, -9 mezza età e -9 anziani. Le proporzioni delle classi di erà devono essere differenti nel 2009 e nel 2010; non ho idea di quale campione sia più vicino alla composizione effettiva della popolazione.