Una domanda a Repubblica e IPR Marketing

25 luglio 2010 sandro brusco

Mi spiegate per favore i risultati del vostro ultimo sondaggio sulla fiducia nel presidente del consiglio?

Sul sito ufficiale dei sondaggi elettorali è apparso il dettaglio della indagine IPR Marketing sulla fiducia degli italiani nei confronti del governo (entrate nel sito e cliccate sull'indagine del 22/7/2010 di IPR Marketing). Un resoconto del sondaggio è stato pubblicato da Repubblica il 20 luglio. La figura qua sotto riassume i risultati che vorrei discutere. Sotto la tabella spiego le ragioni della mia perplessità e le mie domande.

Il campione complessivo, veniamo informati, consta di 1000 casi ''Panel, rappresentativo dell'universo di riferimento disaggregato per sesso, età, area di residenza e ampiezza comune di residenza''. Il dato aggregato è un calo nella fiducia verso il presidente del consiglio dal 49% nel luglio 2009 al 39% nel luglio 2010.

Prima di andare avanti, faccio un esempio il più semplice possibile per spiegare le ragioni dei mie dubbi. Immaginate che un popolazione sia esattamente divisa in due sottopopolazioni, chiamiamole per comodità i vecchi e i giovani. I vecchi e i giovani sono presenti in ugual numero ma hanno opinioni radicalmente differenti in politica. Per esempio, solo il 30% dei giovani pensa che il politico A sia degno di fiducia, mentre ben il 70% dei vecchi pensa che A meriti fiducia. Fatemi ipotizzare anche che queste opinioni siano stabili nel tempo e che anche le percentuali di vecchi e giovani siano stabili, 50% ciascuna categoria di età.

Ora, immaginiamo che tu sia un sondaggista che cerca di catturare l'evoluzione dell'opinione nei confronti del politico A. Fai un sondaggio nel luglio 2009 dove scopri ''la verità'', ossia il politico A gode del consenso del 30% dei giovani, del 70% dei vecchi e, siccome il tuo campione riflette fedelmente la composizione della società tra vecchi e giovani, ti risulta un consenso aggregato di 0,5x30%+0,5x70%=50%. Fai poi lo stesso sondaggio nel luglio 2010. Scopri, giustamente, che né i giovani né i vecchi hanno cambiato opinione. Però non ti accorgi che il tuo campione non rispecchia fedelmente la percentuale di giovani e vecchi. E' successo che stavolta hanno risposto più giovani del normale, per cui il tuo campione è formato per il 60% da giovani e per il 40% da vecchi.

Bene, qual è il consenso aggregato che risulta dal tuo campione? E' 0,6x30%+0,4x70%=46%. Ossia, il tuo dato aggregato ti dice che il politico A ha perso il 4% dei consensi, nonostante in nessun sottogruppo abbia perso consensi. Ovviamente un caso del genere può verificarsi solo quando cambiano i pesi delle varie sottopopolazioni. Ma è anche abbastanza chiaro che un sondaggista dovrebbe essere sospettoso di un risultato del genere, guidato unicamente dal fatto che nel sondaggio più recente la composizione del campione è diversa dalla vera composizione della popolazione. Come ''bilanciare'' un campione, correggendo per questo tipo di problemi è questione complicata e ciascuna casa di sondaggi ha i suoi metodi, che purtroppo non vengono spiegati nel sito ufficiale dei sondaggi. Però, ripeto, variazioni nel dato aggregato che possono essere spiegate solo da variazioni nella selezioni dei sottocampioni dovrebbero far suonare un campanello d'allarme.

Ora che la natura del problema è, si spera, chiarita possiamo ritornare al sondaggio IPR Marketing-Repubblica. Guardate i dati disaggregati per classi di età. Vedrete che tutte le classi di età manifestano un calo di consenso inferiore al 10%: -3 per i 18-34 anni, -9 per i 33-54 anni e -9 per gli ultra 55. Un fatto simile è impossibile se il peso delle classi di età nel campione 2010 è uguale a quello del campione 2009, dato che in tal caso la variazione del campione aggregato deve essere uguale alla media ponderata delle variazioni per le classi di età con pesi uguali nel 2009 e nel 2010. Quindi il risultato deve essere stato generato dal fatto che le classi di età con il più basso consenso per Berlusconi (i più giovani) hanno un peso nel campione 2010 superiore a quello del campione 2009. Quindi la mia domanda a IPR Marketing-Repubblica è: potete per favore spiegare come sono variati tali pesi, spiegando quale era la numerosità delle diverse classi di età nel campione di luglio 2009 e nel campione luglio 2010? Quanta parte della riduzione nel consenso a Berlusconi è dovuto al cambiamento di tali pesi?

Si noti che esattamente lo stesso problema si pone nella disaggregazione per ampiezza di centro abitato. Anche lì tutte le classi mostrano un peggioramento inferiore al 10%, per cui il risultato deve essere dovuto a una diversa composizione del campione. Anche qui, si potrebbe avere qualche dettaglio in più?

Ad essere del tutto onesto a me generano parecchi dubbi anche la disaggregazione per area territoriale (possibile che un calo complessivo del 10% possa essere spiegato da un -11% al sud a fronte di consenso invariato al nord?) e per titolo di studio (possibile che il -12% dei laureati, che sono una netta minoranza della forza lavoro, più che compensi le variazioni positive degli altri?). Anche qui quindi non sarebbe male rendere pubbliche le numerosità dei sottocampioni nel 2009 e nel 2010.

Grazie in anticipo per la risposta e un cordiale saluto.

23 commenti (espandi tutti)

I miei 2 cents: il campione e' normalizzato per eta', popolazione dei centri, forse per appartenenza partitica, non per area di residenza, ne' per titolo di studio, ne' per condizione professionale.

 

 

Per ''normalizzato per età'' intendi che in ogni campione la proporzione degli intervistati di una certa classe di età rispecchia quella della popolazione? Se è così non si spiega come un -10% aggregato possa risultare da -3 giovani, -9 mezza età e -9 anziani. Le proporzioni delle classi di erà devono essere differenti nel 2009 e nel 2010; non ho idea di quale campione sia più vicino alla composizione effettiva della popolazione.

per normalizzato intendo che la distribuzione per eta' del campione rispecchia quella dell'Italia,

e si, hai ragione, anche il campione per eta' e' sballato 

Per quale motivo si cambiano i pesi? Si fa per un avvenuto mutamento nella composizione della popolazione? Altrimenti quanto ha senso confontare dati provenienti da composizioni diverse?

Guarda, non credo proprio che la composizione per età della popolazione, o per grado di istruzione o altro, possa essere cambiata gran che tra luglio 2009 e luglio 2010. Un campione non normalizzato può avere pesi delle sottopopolazioni diversi; semplicemente, può essere successo che più giovani hanno risposto nel 2010 che nel 2009, non credo ci sia dietro alcuna intenzione di cambiare i pesi delle sottopopolazioni. La domanda è se è stata usata una qualche forma di normalizzazione del campione o se hanno usato i dati grezzi. Per questo sarebbe utile conoscere la numerosità dei sottocampioni nel 2009 e nel 2010.

Ok, grazie, ora ho capito meglio la questione.

E' possibile che abbiano fatto semplicemente la media degli intervistati?

Tipo, intervistati 2009

18-34: 200

35-54: 200

oltre 54: 600

Media 48,8

 

Intervistati 2010

18-34: 200

35-54: 350

oltre 54: 450

Media 38,9

E' possibile ma questa è esattamente la mia domanda. Immaginiamo che le numerosità dei sottocampioni siano proprio come dici tu. Allora è probabile che buona parte del calo di consenso aggregato di Berlusconi sia semplicemente dovuto al fatto che, per caso, stavolta hanno risposto meno ultra-55 che un anno fa. Corrisponde questo a un reale calo di consenso? Non necessariamente, come ho mostrato nell'esempio del post.

Per questo sarebbe utile conoscere le numerosità dei sottocampioni nel 2009 e nel 2010. Magari nel 2009 hanno intervistato troppi vecchi e hanno dedotto erroneamente che il consenso di berlusconi fosse più alto di quello che era in realtà. O magari è successo il contrario. Finché non si vedono i dati non si può dire.

infatti se la composizione del campione 2q009 fosse uguale a quella del campione 2010 il consenso 2009 sarebbe stato 46,6 e non 49 e il calo 7,6

ho provato a ricavare la composizione del campione 2010 ipotizzando che i due ranges più bassi siano divisi secondo gli intervalli di età ( nel 2010 le risposte sono vicine pertanto non fa molta differenza la suddivisione interna ) quindi :

(16/36)*x*31+(20/36)*x*33+(1-x)*47=39

ricavo :

18-34 23,88%

35-54 29,85 

> 54 46,27%

applicando le stesse ai dati 2009 trovo 46,6 e non 49

 

 

Bisognerebbe chiedere spiegazioni a IPR marketing.

Sbaglio o lo avevate già fatto in passato con risultati deludenti?

basterebbe minacciarli velatamente di sputtanamento

in ogni caso è una conferma che tutti i sondaggi sono taroccati e che non sono informazione ma marketing politico

ma questi di IPR sono debolucci in aritmetica : per taroccare i numeri bisogna essere ganzi ( anche se in questo caso non sarebbe richiesta particolare maestria )

Mah, non credo siano taroccati nel senso che si sono inventati i dati. Io dico semplicemente che l'informazione che mettono nella pagina ufficiale dei sondaggi è insufficiente a valutare il lavoro che hanno fatto e la credibilità dei loro risultati. Per cui, io chiedo che tali informazioni, utili per dare un giudizio sull'attendibilità dei risultati, vengano date.

Fare sondaggi buoni è difficile e non c'è bisogno di sospettare immediatamente cospirazioni e pastette. Però i media italiani veramente non sembrano affatto nemmeno tentare di informare al riguardo in modo decente. Cose banali come il riportare gli intervalli di confidenza dei risultati (quello che normalmente la stampa, almeno in amerika, chiama il margine di errore) o la grandezza dei sottocampioni sono sistematicamente ignorate.

Giusto per avere un'idea di come sia brutta la situazione, guardate questo articolo de Il Fatto. Vi si narra di un sondaggio ''commissionato dal quotidiano La Stampa'' e vi si dice soltanto che il movimento 5 stelle (grillini) è al 3%. Praticamente non c'è altra informazione, tranne che Vendola è pure lui al 3%. Nulla sulla grandezza del campione, nulla sul margine di errore, nulla sul bilanciamento, nulla sulle domande esatte del questonario, nulla perfino sulle percentuali dei partiti più grossi. In più il sondaggio, teoricamente commissionato da La Stampa, io sull'edizione online de La Stampa non sono mai riuscito a trovarlo. Nemmeno l'ho trovato su www.sondaggielettorali.it dove, se non ho capito male, è obbligatorio mettere tutti i sondaggi che vengono resi pubblici. Come può un direttore mandare in stampa un pezzo del genere? Poi ovviamente c'è l'alto esempio del PresDelCons, che ogni tanto se ne esce con numeri che nessuno sa da dove tiri fuori senza che nessuno gli faccia le pulci. 

Ritengo che in questa situazione sia doveroso richiedere maggiore informazione e maggiore trasparenza, e il mio post ha esattamente questo scopo. A Repubblica sappiamo per certo che ci leggono. Vediamo se hanno voglia di rispondere.

certamente non hanno usato gli stessi sottocampioni per l'età , infatti se cerchiamo di risolvere il sistema

2010 : x*31+y*33*( 1-x-y)*47=39

2009 : x*34+y*42+( 1-x-y)*56=49

 

viene una soluzione assurda : x = - 1/6

diciamo anche che essendo il risultato finale -10 e' inverosimile che in ogni segmento si abbia un vlore inferiore al -10

Sandro, io ho un sospetto ancora peggiore, ma magari sbaglio. Se uno va sul sito di IPR e guarda il sondaggio (qui), dicono che la percentuale dei rispondenti e' il 93%. Numeri simili si leggono per i mesi precedenti. Questo numero e' sospetto. Se uno contatta mille persone a caso, credo che le percentuali di risposta in amerika siano dell'ordine di uno su dieci. Il mio sospetto e' che IPR intervisti sempre gli stessi mille, che fanno parte del loro panel (vedi qui). Se cosi' fosse, altro che margine di errore del 3,2% (numero tipico con confidenza del 95% e 1000 osservazioni). Quindi, non solo come te vorrei vedere i numeri e non le percentuali, ma vorrei anche che IPR spiegasse il metodo che usano per selezionare il campione ogni volta (in amerika di solito si usa on computer per estrarre numeri di telefono a caso).

http://www.iprmarketing.it/inprimopiano.asp

“TEMPO REALE” è un sistema di rilevazione che si configura come uno strumento di analisi dell'opinione tra i più potenti e veloci oggi disponibili.
Si tratta di una tecnologia innovativa che unisce i vantaggi dei sistemi tradizionali ad una riduzione notevole dei tempi di realizzazione di un'indagine. Grazie al sistema “TEMPO REALE”, infatti, si possono raccogliere le informazioni e ottenere i risultati in circa 1 ora dal momento in cui si decide di procedere con la somministrazione del questionario.
Partendo da questa tecnologia, IPR Marketing ha dato vita ad un panel di 1000 individui, rappresentativo della popolazione italiana (per sesso, età, area di residenza, ampiezza comune di residenza e scolarità), collegati in tempo reale 24 ore su 24. 

 

Beh, allora la cosa è veramente, veramente strana. Se stanno intervistando sempre le stesse persone i pesi dovrebbero essere quasi gli stessi (OK, tutti hanno un anno in più nel 2010 che nel 2009, qualcuno può trasferirsi, qualcuno può displomarsi e laurearsi, ma è poca roba). Sicuramente i pesi non possono cambiare tanto da giustificare una media esterna.

Sono sempre più perplesso.

Sandro, se intervistano sempre gli stessi io non so nemmeno come interpretare i loro numeri, visto che la legge dei grandi numeri non si applica. Che io sappia, nessuno dei maggiori pollster si discosta dal generare un campione casuale selezionando numeri di telefono a caso, procedura che viene ripetuta ogni volta che si fa un sondaggio.

Quello che salta all'occhio, anche senza particolare competenza in statistica, è che comunque da -3, -9 e -9 non può risultare -10. Ma a questo punto sarebbe importante avere una risposta da IPR, dato che si pone un problema: determinare quanto esattamente quelli di IPR ritengono che i lettori siano - mettiamola così - disattenti. Per il momento preferisco pensare che abbiano sbagliato nel riportare i risultati sulla tabella esposta.

Quello che salta all'occhio, anche senza particolare competenza in statistica, è che comunque da -3, -9 e -9 non può risultare -10.

In realtà sì, è possibile, ma solo se cambiano i pesi delle sottopopolazioni.

è disattenta anche la paleontologa

altrimenti SB avrebbe scatenato il diavolo a quattro

Nel sito Sondaggipoliticoelettorali nella pagine del sondaggio IPR viene specificato che l'Universo di riferimento è la "popolazione maggiorenne residente in Italia FONTE : ISTAT 2008
(immagino quella rilevata al 1° gennaio 2009);
utilizzando questi dati si dovrebbe avere ("scorporando" i residenti stranieri):

18-34    23%
35-54    36%
oltre 54 41%

Sempre da Sondaggipoliticielettorali.it si scopre che quello del 2009 era fondato sulla popolazione del 2005 (sic!). Con percentuali quindi:

18-34    25%
35-54    35%
oltre 54 40%

Applicando questi "pesi" ai livelli di fiducia delle diverse classi di età indicati risulterebbe:

Fiducia 2009: 45,5 - Fiducia 2010: 38,2

Spero che i calcoli siano corretti.

non ho capito se la domanda , molto pertinente , l'hai posta  Repubblica ed IPR e nel caso se ti hanno risposto.

Inizia una nuova discussione

Login o registrati per inviare commenti