Il mio post osservava la discrepanza tra le variazioni del consenso a Berlusconi per alcune sottocategorie e il dato aggregato e si chiedeva come tale risultato fosse possibile. In particolare, come può il consenso a Berlusconi calare del 10% quando tutte le sottocategorie di età mostrano un calo inferiore? Questa è la risposta del dottor Noto.
Gentile Professore, prima di tutto la ringrazio per avermi contattato.
Rispondo alla sua giusta e condivisibile osservazione
Le differenze che lei individua nascono dal fatto che il dato totale (cioè il 39% della fiducia a Luglio 2010 ed il 49% della fiducia a Luglio 2009) è frutto di ponderazioni. Infatti i dati grezzi sono stati ponderati per peso politico, area di residenza, sesso ed età. Invece i dati relativi a tutte le disaggregazioni sono % grezze e quindi non sono pesati. Per questa ragione la media delle medie potrebbe non coincidere con la media totale che è, appunto, pesata.
Colgo l'occasione per ringraziarla e mi contatti se ha altri dubbi.
Grazie e cordialità.
Antonio Noto
Si tratta di una riposta che aiuta perlomeno a comprendere la fonte della discrepanza (i dati per sottocategorie sono ''grezzi'', quelli aggregati sono ottenuti pesando le sottocategorie) ma che non chiarisce dal punto di vista quantitativo quali pesi sono stati adottati e come sono variati nel tempo. Ho quindi risposto al dottor Noto chiedendo ulteriori delucidazione, in particolare cosa si intende per ''ponderazione per peso politico'' e come i diversi criteri (sesso, età etc.) entrano nella determinazione delle percentuali aggregate.
Questa è la risposta.
Per quanto riguarda la sua domanda sulle ponderazioni, queste sono dei normali correttori statistici che si applicano usualmente per fare in modo che le risposte del campione possano divenire realmente rappresentative dell'universo di riferimento. Faccio un semplice esempio per dimostrare la validità delle ponderazioni. Il nostro panel è formato da 1.000 italiani adulti. Una delle caratteristiche che questo campione deve avere, per esempio, è che sia costituito dal 52% di donne e 48% di maschi, così come è costituita la popolazione italiana. Però, in fase di somministrazione del questionario è difficile (diciamo impossibile) che possa rispondere il 100% del campione, cioè tutti i 1.000 panellizzati. Supponiamo quindi che rispondono 900 elettori e tra questi il 52% di maschi ed il 48% di donne (cioè in proporzione inversa rispetto alla composizione dell'elettorato italiano). Questa distorsione fa si che nel campione il giudizio degli elettori maschi sia sovrastimato rispetto a quello delle elettrici, e quindi proprio per riportare il campione alle proprie proporzioni generali, è necessario applicare un correttivo statistico e quindi "pesare" le risposte dei maschi e quelle delle donne come se avesse risposto il 48% di maschi ed il 52% di donne.
Le ponderazioni si applicano anche sulle variabili politiche, in relazione al voto espresso (reale, quindi) alle scorse elezioni europee o politiche. Faccio un altro esempio. Il nostro campione dei mille panelizzati è costruito rispettando le proporzioni degli elettori rispetto al partito/coalizione votato nelle precedenti elezioni. Quindi, se alle scorse europee il 45% degli elettori ha votato PDL/LEGA, nel nostro campione il 45% dei votanti ha scelto questi stessi due partiti. Però, come gia detto precedentemente, nel momento della somministrazine del questionario è possibile che rispondono solo 900 persone e tra queste il 38% dei votanti ha scelto PDL/LEGA alle scorse elezioni. Pertanto, analizzando solo i dati grezzi (cioè le semplici medie) ci troveremmo una sottostima del giudizio espresso da chi aveva votato PDL/LEGA e, conseguentemente, una sovrastima di chi aveva scelto gli altri partiti. Quindi il dato grezzo sulla fiducia sarebbe viziato di questo errore se non applicassimo la ponderazione. Anche in questo caso, dunque, si applicano le ponderazioni statistiche in modo tale che il campione viene corretto sulla base del voto reale e quindi diventa rappresentativo dell'universo di riferimento che è dato da tutti gli elettori italiani.
Per adesso è tutto. Mi contatti se ha bisogno di altri chiarimenti. Nei prossimi giorni sarò in ferie ma avrò comunque la possibilità di leggere la posta.
Grazie e cordiali saluti.
Antonio Noto
La risposta direi che a questo punto è abbastanza esauriente, anche se sarebbe utile avere i numeri esatti grezzi di tutte le sottocategorie. Due osservazioni finali però.
1) Nella nota metodologica in fondo al pezzo apparso sul sito, così come altrove, si annuncia che la ampiezza del campione è 1000. Le cose in realtà sembrano essere un po' diverse. Mille è il numero degli individui inseriti nel panel (il neologismo ''panellizzati'' l'ho trovato divertente), non il numero di quelli che rispondono alle domande. Credo sarebbe bene se IPR Marketing (e le altre case di sondaggio che usano questo metodo) riportasse l'ampiezza del campione di quelli che hanno effettivamente risposto, che a quanto pare varia da periodo in periodo.
2) Mi piacerebbe vedere più discussione e più evidenza statistica sulla bontà della pratica di pesare per orientamento politico. Questa pratica è corretta se non esiste sample selection bias, ossia se la scelta elettorale del passato è indipendente dalla probabilità di rispondere al sondaggio odierno. Se le due variabili sono correlate allora la faccenda è più complicata. Per esempio, se succede che gli elettori del centrodestra non rispondono con più probabilità degli altri perché sono arrabbiati con il governo, allora pesare le loro risposte con la percentuale elettorale rischia di sopravvalutare la fiducia. E' facile ovviamente formulare ipotesi in cui può accadere il contrario. Tutto ciò che sto dicendo è che l'ipotesi di indipendenza tra scelte elettorali passate e propensione a rispondere andrebbe valutata attentamente dal punto di vista sia teorico sia empirico.
Avevo già inserito un commento nell'articolo precedente, lo riporto qui; a mio parere, con i numeri pubblicati da IPR non tornano i conti, anche se la questione non mi sembra di primaria importanza; la statistica resta una "scienza" inesatta:
Assumo che tu sia d'accordo con quanto sto per dire, ma voglio chiarire lo stesso, onde evitare equivoci, che in questo sito, su queste cose, meglio evitare: la statistica non è né esatta né inesatta, studia modi di riportare i dati in modo sintetico. Sono semmai le interpretazioni delle statistiche ad essere sbagliate o fuorvianti.