Titolo

Il grafico della settimana, 21-06-17

2 commenti (espandi tutti)

Mi fa piacere che sulla bacheca di Michele Boldrin la discussione abbia preso la direzione che mi auguravo: cioè "dagli al grafico e rifacciamolo più preciso".

Per chi fosse curioso riporto qui i commenti di Adriano Agnello, che si occupa di analisi statistiche ed è sicuramente in grado di fare analisi più precise delle mie (non che ci voglia molto, dopo tutto):

Scusate se m'intrometto, ma questa correlazione sembra calcolata proprio male. Per uno che queste cose le fa di lavoro, a occhio e croce siamo a un sigma da zero.

Ma per stabilirlo seriamente bisognerebbe usare quello che gli statistici chiamano "modello generativo", esplorare la likelihood e dare sia il massimo a posteriori sia la deviazione standard inferita. Se c'è una tabella già compilata ve lo rifaccio volentieri, tanto il codice per farlo ce l'ho già. A voler spaccare il capello uno dovrebbe anche includere una stima di quanto i singoli dati sono robusti, e.g. la dispersione in GDP pro-capite e in percentuale di voti ai M5S all'interno di ogni provincia... E magari separare in due sample, i.e. europee e politiche.
Scusate ancora, ma davvero, per uno che di lavoro tratta dati rumorosi (e se ci trova correlazioni fa festa) questo genere di grafici fa un po' sanguinare gli occhi.

E, più avanti:

La correlazione, che c'è ed è robusta (3sigma per le politiche, 4sigma per le europee). Inizialmente devo essermi fatto ingannare dal fatto che i due dataset erano plottati l'uno sull'altro. Ma è *decisamente* meno marcata rispetto alla riga tratteggiata nel plot sul link. Allego un grafico, in cui le linee viola (resp. azzurre) sono fatte usando cinquanta valori dei parametri estratti dal "posterior"; ho usato un prior uniforme negli angoli, nelle intercette (pivot a a 23000EUR, che minimizza le correlazioni fra i parametri) e nello scatter intrinseco.


Ne ottengo


par. politiche europee
c0 26.5\pm0.5 22.2\pm0.5
m -2.8\pm1.0 -4.2\pm0.9
sig 4.9\pm0.4 4.3\pm0.3


Avendo adottato dati distribuiti uniformemente per il GDP pro capite e Gaussiani per la percentuale in voti, con scatter "sig" e media data da
c0+ m*(GDP/10000- 2.3), m=tan(t0) (t0 prior uniforme)
Sembra che ci sia un netto spostamento nella percentuale di voti ai M5S fra politiche ed europee, sempre entro lo scatter intrinseco (i.e. sono voti "recuperabili"), ma sistematicamente non-nullo.
Caveat: Ho usato un modello generativo piuttosto rozzo, che non tiene conto delle dispersioni all'interno di diverse province, e anche la likelihood regge solo perché le percentuali non sono vicine a 0% o 100% e hanno scatter non troppo grande. Nonostante il prior non-informativo, c'è comunque un accumulo a pendenze "skewed" rispetto al m.a.p (dato nella tabellina sopra), i.e. molti modelli vogliono pendenze meno marcate, per qualche motivo; sospetto che sia dato dalla distribuzione non esattamente uniforme dei GDP, o forse è il modello lineare ad essere insufficiente, o forse la likelihood è troppo rozza.
[Sì, "estratti dal posterior" fa sghignazzare anche me.]

Con il seguente grafico:

E se proprio avete tempo da perdere, raccomando anche la lettura dei commenti che suggeriscono un ruolo fondamentale della Sicilia, senza la quale la correlazione s'indebolisce parecchio.

Chiedendo venia ad Adriano e a tutti gli statistici, ho provato a rifare il diagramma di Davide distinguendo tra province con sbocco a mare e senza sbocco a mare. A livello intuitivo, potrebbe non esserci correlazione nelle comunitá marittime, almeno per quanto riguarda le elezioni del 2013. Si nota uno leggero spostamento, anche nell'orientamento della trendline, nelle europee, come se in qualche maniera le province marittime piú sviluppate abbiano leggermente cambiato idea nel frattempo. Per le province senza sbocco a mare, invece, pare ci sia una qualche correlazione in tutte e due le elezioni.

Come scrivevo tra i commenti nella discussione sul profilo di Michele Boldrin, ho vissuto in Turchia, dove la divergenza di comportamenti elettorali tra province marittime e non marittime é uno dei principali argomenti di analisi politica e sociale. Quando notai la presunta correlazione tra comunitá marittime e risultati del M5S la prima volta, una delle idee che mi venne é che Beppe Grillo viene da una cittá di mare, per noi nati nelle cittá portuali probabilmente viene piú immediato un processo di identificazione, e.g. forse lo vediamo come uno di noi. Ovviamente ci potrebbero essere tante altre spiegazioni alternative.

Se qualche volenteroso statistico volesse fare una analisi piú approfondita, i dati che ho utilizzato, ed il diagramma, sono in questo foglio di calcolo, ma probabilmente per rispondere in maniera certa alla domanda, bisognerebbe utilizzare i dati comunali, e magari aspettare un altro paio di elezioni.

Questione di Mare