L'errore standard degli econometrici

Stephen Ziliak è un econometrico del mercato del lavoro presso la Roosevelt University di Chicago, Deirdre McCloskey insegna economia, storia e inglese alla University of Illinois, a Chicago: esperta di storia economica, di retorica e di metodi quantitativi, da giovane si chiamava Donald, portava i basettoni e giocava a football. Oggi è cattolica, libertaria, femminista e non si separa mai dai suoi barboncini. A partire dagli anni Ottanta hanno incominciato a raccontare il vizio capitale dell'econometria, prima in una serie di articoli (quindici), poi in un volume del 2008 dal titolo Il culto della significatività statistica, il cui sottotitolo recita Lo standard error ci costa posti di lavoro, giustizia e vite. Credo che valga la pena di leggerlo.

La tesi centrale del loro lavoro è che la
confusione tra significatività statistica e significatività sostanziale – un errore
commesso nella quasi totalità degli studi statistici – comporta una distorsione
sistematica, e pericolosa, della ricerca scientifica. Il libro si sviluppa
attorno a questa tesi, ma propone molto di più: mostra una nutrita serie di
incongruenze e di abusi della pratica statistica che non si limitano
all'economia, ma che dilagano anche nella psicologia, nella scienza politica, nella
sociologia e, purtroppo, anche nella farmacologia e nella medicina. Gli stessi
autori e, ovviamente, anche lo scrivente, ammettono di essere più volte caduti
nell’errore di confondere realtà e statistica.

La madre di
tutte le incomprensioni risale al dibattito degli anni Trenta tra Ronald A.
Fisher e William S. Gossett, quest’ultimo noto sotto lo pseudonimo di Student.
Il primo è stato il fondatore della teoria dei test d'ipotesi e l'inventore del
p-value, mentre il secondo, durante
le sperimentazioni quotidiane sulla qualità dei prodotti della brewery Guinness
presso cui lavorava, ha fornito le basi per la teoria degli errori statistici,
trasformata poi da Jerzy Neyman ed Egon Pearson in un approccio coerente alla
decisione statistica che considera esplicitamente i costi e i benefici che
conseguono dall’adozione di determinate ipotesi. I libri di testo elementari
presentano la procedura di test d’ipotesi come un blocco coerente di pratiche
che ingloba sia l'approccio di Fisher che quello di Neyman-Pearson, ma tra le
due visioni dell’inferenza sussistono diversità profonde ed è proprio su queste che insistono gli autori.

Per comprendere
il nucleo della critica di Ziliak e McCloskey, consideriamo lo
stereotipo dell'analisi econometrica così come viene correntemente insegnata e
praticata, anche sulle riviste accademiche più prestigiose, tramite un esempio
tratto dall'economia. Supponiamo di essere interessati a testare le
implicazioni della teoria della Parità dei Poteri d'Acquisto (PPA). Una di
queste asserisce che il tasso di cambio reale tra due paesi che commerciano tra
di loro tende, nel lungo periodo, a un valore pari a uno. Al fine di testare la
rilevanza empirica di questa affermazione, consideriamo il modello statistico

p = a + b (ep*) + u,

dove p è il livello generale dei prezzi
interni, a e b sono costanti da stimare, e è il tasso di
cambio, p* è il livello dei prezzi esteri e u è un termine di
errore gaussiano. Supponiamo di disporre di dati adeguati e stimiamo un modello
di regressione con questi numeri. Il risultato del calcolo del parametro b è pari a 0.95.

La
procedura che viene normalmente seguita per valutare l’affidabilità del valore
ottenuto utilizza il computo del p-value, il quale rappresenta la
probabilità che una data statistica assuma il valore effettivamente
osservato, supponendo che l'ipotesi nulla H0 sia vera
(Borowski e Borwein, The Harper Collins Dictionary of Mathematics, 1991). Nel nostro caso, l’ipotesi nulla H0 consiste nel
porre b = 1, che è il valore suggerito
dalla teoria della PPA. Il p-value è il più piccolo livello di
significatività in corrispondenza del quale l’ipotesi nulla viene rifiutata.
Operativamente, se il ricercatore ha scelto a priori come accettabile un
livello di errore del primo tipo che risulta maggiore o uguale al valore del p-value
calcolato, allora l’ipotesi nulla viene rigettata. Tornando al nostro esempio,
poniamo che il valore campionario fornisca un valore del p-value pari a 0.01 e
di aver scelto a priori un errore del primo tipo pari a 0.05. Secondo la logica
di Fisher, il test indica che i dati non supportano la tesi della PPA perché la
differenza tra il valore teorico e quello empirico è statisticamente
significativa
. Nella maggioranza dei casi questo schema logico induce
l’economista a scartare la validità della teoria sulla base della
presunta neutralità di una regola di decisione statistica che recita: considera
significativi solo i coefficienti che presentano bassi valori del p-value.

La ricetta,
tuttavia, non è una macchina della verità, anzi. La teoria della PPA prevede un
valore di b pari a 1, ma nulla dice su quanto
il valore stimato empiricamente debba essere prossimo a quello teorico affinché
la teoria possa considerarsi confermata. Solo una valutazione umana,
che tenga in conto il valore effettivo delle ipotesi alternative, è in grado di
decidere quanto i dati si discostino dal valore teorico. Un valore di b pari a 0.95 oppure pari a 1.15
potrebbe essere considerato come una conferma della PPA dal punto di vista del
governatore di una banca centrale, mentre un valore pari a 0.95 potrebbe indicare
a uno speculatore l’esistenza di margini di arbitraggio da cui trarre profitto.

Un test statistico
che non confermi l'ipotesi nulla non suggerisce alcunché riguardo
alla significatività economica del parametro stimato. Questo, infatti, potrebbe essere di
dimensioni talmente ridotte da risultare economicamente irrilevante. La
significatività statistica non è né una condizione sufficiente né necessaria per
stabilire la significatività economica – ovvero, sostanziale – di un dato
parametro. La valutazione dei risultati numerici, per quanto sofisticata possa
essere la procedura che li ha generati, è sempre sottoposta al contesto del
problema e alla ragionevolezza del ricercatore. Espressioni assolute come il
parametro stimato risulta significativo
sono prive di valore conoscitivo,
perché non rivelano nulla riguardo all'intensità di una data relazione stimata
e confondono la significatività statistica con quella sostanziale. Va da sé che
solo quest'ultima è di qualche interesse per gli economisti.

Molti
dei risultati e degli episodi riportati nello studio di Ziliak e McCloskey sono
gustosi e istruttivi. Un esempio sorprendente, scelto tra i tanti. Milton Friedman
– che, oltre ad aver contribuito in maniera sostanziale all’avanzamento della
causa della libertà e dell’analisi economica, era anche particolarmente dotato
nell’uso di metodi quantitativi – durante la guerra lavorava al MIT alla
progettazione di nuove leghe metalliche. Secondo i suoi calcoli, la
combinazione ottimale avrebbe presentato un tempo di rottura
dieci volte superiore a quello delle leghe comunemente impiegate. La chutzpah
di Milton era grande perché il fitting statistico dei suoi dati era ottimo. Il risultato
pratico? La lega cedette in un terzo del tempo
delle altre leghe. Fortunatamente, l’episodio fornì al giovane economista
l’opportunità di ripensare il suo approccio allo studio dei dati empirici e
di fornirci in seguito studi esemplari nei quali la
risposta a quesiti fondamentali della teoria economica è fornita da asserzioni tutt’altro che irrilevanti.

In
altri casi, invece, il culto della significatività fisheriana dipende dalla
dimenticanza della teoria statistica. Per esempio, è importante tenere a mente
che il valore del p-value dipende inversamente dalla quantità dei dati:
per ogni campione sufficientemente numeroso, è sempre possibile trovare
differenze significative in senso statistico senza che esse implichino alcunché
di sostanziale. Anche nel caso della PPA, con una serie di prezzi e di tassi di
cambio particolarmente lunga, è sempre possibile rigettare l’ipotesi che b
sia uguale a uno, indipendentemente dalla validità della teoria sottostante:
questo è l’errore di secondo tipo, ovvero il caso in cui viene respinta come
falsa una tesi che in realtà è vera, un’eventualità che viene quasi sempre
trascurata. In questo caso l’arbitrageur perde il suo denaro, il
governatore della banca centrale incrementa ulteriormente la confusione nella
circolazione monetaria, ma l’editor della rivista di economia è soddisfatto perché ha
mantenuto alto il suo impact factor. In realtà, una sana diffidenza per i
test di tipo fisheriano dovrebbe indurre gli econometrici a frenare gli
entusiasmi per coefficienti di regressione dotati di p-value bassi negli
studi su dataset di grosse dimensioni, come nel caso dei panel microeconometrici.
L’osservazione anche casuale delle riviste di economia applicata mostra che
questa cautela è adottata solo di rado.

Se in discussione
ci sono per esempio delle vite umane, così come avviene quando si tratta della
sperimentazione di farmaci, trascurare l’errore di secondo tipo vuol dire
negare a un gruppo di individui un trattamento che potrebbe salvar loro l’esistenza.
Tuttavia, se pure l’economia empirica tratta di problemi rilevanti per la vita di soggetti reali, allora gli economisti dovrebbero forse adottare un approccio meno
meccanicistico nella valutazione dei risultati empirici e più vicino ai valori
effettivamente in gioco.

Qualche
lettore penserà che scivoloni di questo tipo sia possibile trovarne solo in riviste
accademiche di modesto livello, mentre diventano più rari in riviste con alti
rating, ma sbaglierebbe: Ziliak e McCloskey hanno esaminato
due decadi dell’American Economic Review e hanno
individuato la pervasività degli errori di valutazione e di presentazione dei
risultati statistici, anche da parte di scienziati ascritti stabilmente
nel gotha dell’econometria e della politica economica. In alcuni lavori non
vengono indicate nemmeno le unità di misura delle variabili, il che rende
impossibile qualsiasi interpretazione dei risultati. Secondo i nostri autori,
anche nomi celebri dell’econometria applicata finiscono nel fondo della classifica
della buona pratica statistica: fa una certa impressione trovarci nomi come
quelli di Steven Levitt e Daniel Hamermesh, ma di questi tempi inquieta non poco trovarci
quello di Ben Bernanke.

Qualche
nota marginale, tanto per finire. Il libro è piacevole alla lettura, ma
l'enfasi sulle vicende biografiche di Gossett e di Fisher sarebbe forse più
adatta a una ricostruzione storica del pensiero statistico che a un saggio
sugli errori della comune pratica scientifica. Dalla lunga ricostruzione
fornita, Gossett ne viene fuori come un uomo intellettualmente geniale e
umanamente adorabile, mentre Fisher come un accademico brillante ma limitato:
dopo qualche pagina, il racconto comincia a stancare, anche perché il tono dalla
narrazione è eccessivamente retorico e tende a scivolare sia nell'invettiva
verso i cattivi Fisher e (Karl) Pearson, colpevoli di scorrettezze
accademiche e personali, che nell’agiografia del personaggio Gossett.

Lo scopo
del libro è dichiaratamente politico, si tratta cioè di un esercizio di
persuasione diretto a modificare le convinzioni e il modus operandi
degli econometrici e degli scienziati in generale. Proprio in questa
prospettiva, un limite evidente è la mancanza di presentazione formale
dell'argomentazione principale sui limiti del test di Fisher, che non compare
neppure in appendice. La notoria attenzione di McCloskey per la retorica della
persuasione scientifica qui è inspiegabilmente carente, perché impedisce al
lettore di apprezzare fino in fondo le rilevanti distinzioni introdotte per via
discorsiva. Anche gli esempi proposti non sempre vengono sviluppati a sufficienza:
è un peccato, perchè lo scopo del volume dovrebbe essere anche quello di
orientare in una direzione più razionale il lavoro statistico e di trasferire
quella tacit knowledge che talvolta costituisce la vera essenza della
pratica scientifica quotidiana.

Ancora oggi
gli statistici aderiscono alternativamente all’approccio di Gossett o a quello
di Fisher. Aveva ragione Gossett a mettere in guardia contro l’uso meccanico
del p-value? A giudicare dalle affermazioni di Ziliak e McCloskey, ma
anche dalla qualità eccezionale della birra Guinness, sembrerebbe proprio di
sì.

10 commenti (espandi tutti)

mentre [Student], durante le sperimentazioni quotidiane sulla qualità dei prodotti della brewery Guinness presso cui lavorava, ha fornito le basi per la teoria degli errori statistici

Da oggi ho un nuovo eroe!  :)

Jim Berger

luigi pisano 22/9/2008 - 10:57

Un altro che ha a cuore questo argomento e' Jim Berger, statistico a Duke.

Sul suo sito si trova anche un applet Java con cui svolgere simulazioni interessanti. La morale proposta e':

The most important conclusion is that, for testing ‘precise’ hypotheses, p- values should not be used directly, because they are too easily misinterpreted.

Re: Jim Berger

JP 22/9/2008 - 22:10

Mi sembra un sito interessante, soprattutto l'articolo che trovo linkato dopo qualche clic. Tanto per rimanere nel nostro campo, sono pochissimi i testi di econometria che chiariscono fino in fondo la fondamentale differenza tra significatività statistica e sostanziale. Un buon antidoto alla pratica del p-value (e a molte altre ingenuità) la si può trovare nell'utilissima (e chiara) guida di Peter Kennedy, che non è un manuale di econometria, ma uno strumento fondamentale per utilizzarla con intelligenza.

So what?

Angelo Mele 23/9/2008 - 16:52

Maybe I miss the point here. Ho letto questo post, e mi ha incuriosito. Poi mi sono letto un paio di papers di questi autori, uno su Journal of Economic Literature 1996, e altri trovati sulle loro webpages, ma non ho cambiato opinione di molto: I can`t see the point.
Il punto e`: se un coefficiente e` significant non vuol dire che sia importante dal punto di vista economico, significa che l`hai stimato con precisione ed ha un effetto. L`interpretazione del coefficiente e della sua importanza e` un`altra cosa, e va fatta ogni volta con riferimento alla teoria economica sottostante l`ipotesi che stai studiando.
Per fare un esempio, se hai un coefficiente di .000000000000001 e significativo, mi pare evidente che quella variabile sia poco importante nello spiegare la dependent variable (assumendo che y and x abbiano unita' di misura comparabili).
Quindi non capisco cosa dicano di nuovo.


La cosa che mi pare rilevante e` che i referee, che dovrebbero beccare gli errori e lo scorretto uso della statistica/econometria nei papers, non lo fanno.

Re: So what?

andrea moro 23/9/2008 - 17:13

Il punto e' che quando vai ai seminari, e leggi i paper, l'attenzione e' solo sulla significativita' statistica: contano solo gli asterischi, tutto il resto non interessa; emblematici i casi in cui il relatore ti mostra una tabella con soli asterischi e senza numeri. 

Risk functions

Alex 21/11/2008 - 16:17

Tuttavia, se pure l’economia empirica tratta di problemi rilevanti per la vita di soggetti reali, allora gli economisti dovrebbero forse adottare un approccio meno meccanicistico nella valutazione dei risultati empirici e più vicino ai valori effettivamente in gioco.

 A questo riguardo all'utilizzo del P-value si possono associare delle funzioni di rischio appunto per formalizzare i "valori in gioco a livello numerico". Qualora fosse possibile.

Una introduzione all'uso di queste si trova su molti libri di statistica matematica.

Per quello che riguarda l'econometria in effetti ce ne sono di modelli fallimentari in giro: Time Series analysis sopra tutti!!!

"il p-value, il quale rappresenta la
probabilità che una data statistica assuma il valore effettivamente
osservato, supponendo che l'ipotesi nulla H0 sia vera"

Non é proprio cosi'; in realtà il p-value misura la probabilità, supponendo che H0 sia vera,
di raccogliere un'osservazione come quella che é stata raccolta, o piu' estrema di essa. Vedi anche 
l'esempio su wikipedia, se non sono stato chiaro. 

Nel caso della stima di b, b-stimato é una variabile continua,; dunque,  la probabilità che  b-stimato assuma il valore 0.95 (e non ad es. 0.949999 o 0.9500001) é esattamente 0. Assumendo come ipotesi nulla che il b vero usato da Dio per generare i dati sia 1, il p-value é la probabilità di avere b-stimato <=0.95. 

 

 

-PC

 

 

 

Ziliak ha appena pubblicato sul JEP un articolo sullo stesso tema che si può leggere a questo indirizzo.

A me sembra che i problemi citati nel libro riguardino l'uso distorto di uno strumento statistico, piu' che la inconciliabilità di significatività reale e la significatività statistica.

I limiti del p-value sono ben noti in statistica; ad es., devono essere sempre acccompagnati da un'analisi del fitting del modello. Cito ancora wikipedia:

"You cannot accept the null hypothesis simply by the comparison just
made (11% > 5%); there are alternative tests that have to be
performed, such as some "goodness of fit"
tests. It would be very irresponsible to nonclude that the null
hypothesis needs to be accepted based on the simple fact that the
p-value is larger than the significance level chosen.
"

Volendo fare un'analisi corretta usando i p-value, sarebbe necessario:

(i) identificare la complessità ottimale del modello (numero di parametri, lineare - non lineare, ecc), con criteri di model selection;

(ii)verificare il fitting del modello su un dataset indipendente da quello usato precedentemente;

(iii)se il fitting é ok, accettare il modello e fare analisi dei p-value, ma non possiamo ancora fidarci del tutto;

(iv) sensitività : il modello é davvero sensibile al valore del parametro? cosa succede all'output del modello se impongo b=.85 o 1.05? misuro cambiamenti apprezzabili nell'output del modello al variare del parametro?

(v)analisi di outlier: visto che i parametri sono stimati ai minimi quadrati, la presenza di outlier nel dataset puo' distorcere tutte le stime dei parametri. Ci sono outlier nel dataset? Se si', é necessario rimuoverli e controllare come cambiano le stime.

Se il test viene fatto in modo acritico, é molto facile prendere cantonate. Facendolo con tutti i crismi, secondo me la differenza tra significatività statistica e significatività reale si assottiglia di molto. 

 

-PC

Sì, non c'è inconciliabilità tra significatività statistica e significatività sostanziale: il problema nasce quando la prima è considerata come sinonimo della seconda.

Inizia una nuova discussione

Login o registrati per inviare commenti