Taleb è un personaggio pittoresco, che tende a dare di sé un'immagine di "trader turned philosopher" che si è fatto le ossa sul campo di battaglia dei mercati, e ama condire i suoi scritti con citazioni erudite e abbondanza di "names dropping". Negli ultimi anni ha pubblicato un paio di libri divulgativi su temi finanziari, "Fooled by Randomness" e, quest'anno, "The Black Swan", in cui sostiene più o meno quanto segue: l'ammontare di casualità presente nei mercati non ne consente un trattamento matematico; il framework corrente, basato sul concetto di volatilità, è provatamente incapace di far previsioni sensate su eventi rari, di cui sistematicamente sottovaluta la probabilità; chi sostiene diversamente è un impostore in malafede. Forse ha seguito il consiglio dato da Paul Krugman a chi vuole far l'editorialista ed avere successo di pubblico: "Adopt the stance of rebel: There is nothing that plays worse in our culture than seeming to be the stodgy defender of old ideas, no matter how true those ideas may be". A giudicare dal devoto seguito che tanto l'uno quanto l'altro si sono costruiti tra bloggers, recensori su riviste e compratori di bestsellers, la tattica funziona; quanto a coglierci nel segno, è un altro discorso.
L'articolo citato (disponibile dal sito di FT solo a pagamento, ma riportato integralmente da vari siti o blogs, per esempio qui) è un buon sommario delle sue tesi e del suo stile; e chi abbia seguito sui giornali le varie crisi finanziarie degli ultimi decenni (non ultimo il sussulto di metà agosto scorso) sa che eventi che dovrebbero accadere "ogni 10,000 anni" o che sono supposti giacere a una distanza di "25 volte la deviazione standard" dal valore atteso, hanno, in effetti, il vizio di ripresentarsi ogni decennio circa. Però, contrariamente a quel che dice Taleb, il problema è stato identificato già nella prima metà del XX secolo, e gli strumenti matematici per trattarlo ci sarebbero. Vediamone i dettagli più da vicino.
Quantili e momenti
Nelle applicazioni pratiche di teoria della probabilità e statistica, tanto nelle scienze naturali quanto nelle economiche, si è in genere interessati a far previsioni sulla base di dati sperimentali e ragionevoli modelli matematici; in particolare, si è interessati ai valori assunti dalla funzione di distribuzione cumulativa (o CDF) di una variabile aleatoria per certi valori della variabile stessa; o, reciprocamente, ci si chiede quali siano i valori di tale variabile (detti quantili) in relazione ai quali la sua CDF assume particolari valori. Ad esempio, il quantile 0.5, detto mediana, dà una misura della posizione "centrale" della densita' di probabilita' (PDF, la derivata della CDF), e lo scarto inter-quartile, cioè la differenza tra primo e terzo quartile (quantili 0.25 e 0.75), dà una misura della "larghezza" della PDF. In matematica finanziaria, il molto discusso Value-at-Risk (VaR) è definito in termini di quantili sulla distribuzione dei cambiamenti di valore di un portafoglio di titoli (in particolare, è il massimo stimato della perdita che si può verificare entro un certo periodo di tempo con un dato livello di confidenza, tipicamente il 95% o 99%).
Lavorare con i quantili o con i valori delle probabilità cumulative, però, richiede la conoscenza della forma matematica della funzione di distribuzione. Quello che in genere si fa è definire un modello, che comporta la scelta di una certa funzione di distribuzione; stimare i parametri di quest'ultima sulla base dei dati storici; e da lì passare al calcolo dei quantili.
La stima dei parametri spesso è derivata da quella dei momenti di ordine N della distribuzione, che sono i valori attesi delle N-sime potenze della variabile aleatoria. La stima dei momenti è relativamente facile, dato che consiste nel calcolo di medie delle N-sime potenze dei valori storici (anche se la ricerca del metodo migliore per calcolare queste medie ha generato una sterminata letteratura, fino ai sofisticati modelli derivati di quell'ARCH che nel 2003 portò il Nobel per l'Economia a Robert Engle).
Se si assume, come spesso si fa, che la forma matematica della PDF è gaussiana, i suoi parametri sono direttamente deducibili dai momenti di ordine 1 e 2, che consentono di ricavare il valore atteso e la varianza. Nel caso gaussiano, il valore atteso coincide con la mediana (il quantile 0.5), mentre la radice quadrata della varianza, detta deviazione standard, è circa uguale a 0.74 volte lo scarto interquartile.
Gaussiane: perché e quando.
La ragione dietro la popolarità della distribuzione gaussiana è dovuta essenzialmente al Teorema del Limite Centrale (CLT), dimostrato nella sua forma più generale nel 1922, che asserisce che la somma di un certo numero di variabili aleatorie indipendenti ed equidistribuite tende alla distribuzione gaussiana al crescere del numero di tali variabili. Questa situazione si verifica spesso in natura, e anche in finanza: per esempio, i rendimenti giornalieri su merci o titoli (cioè i rapporti tra il prezzo di chiusura e il prezzo di chiusura del giorno precedente) sono il prodotto dei rendimenti individuali per ogni ora (o minuto, etc.) nel periodo in cui la merce o titolo è trattata in borsa. Pertanto, il logaritmo dei rendimenti giornalieri è la somma di tanti logaritmi di rendimenti elementari (supposti essere ugualmente distribuiti) e sarà perciò distribuito in forma approssimativamente gaussiana. I rendimenti avranno quindi una distribuzione log-normale.
Per la validità del CLT esiste però una precondizione importante, che sinora ho sottaciuto: la varianza delle variabili aleatorie componenti la somma deve avere un valore finito. Parlando più sopra della stima dei momenti, avevo glissato su un dettaglio: se da un lato le medie delle potenze N-sime dei valori sperimentali esistono sempre, dall'altro esse possono non tendere alle stime dei momenti della distribuzione, perché questi ultimi possono non esistere affatto. Questo succede quando l'integrale del prodotto tra PDF e potenza N-esima di una variabile X non converge a un valore finito, perché la PDF non tende a zero abbastanza rapidamente al tendere di X a più o a meno infinito. Più precisamente: se le code delle distribuzioni elementari tendono a zero più lentamente di |X|-(N+1), i momenti di ordine superiore a N non esisteranno. E se N < 2, addio CLT e addio gaussianità della somma!
Distribuzioni stabili
Nei primi decenni del XX secolo ci si chiese se esistesse una versione più generale del CLT applicabile a situazioni in cui le variabili componenti hanno varianza infinita. Una risposta fu trovata nel 1955 da Gnedenko e Kolmogorov, il cui Teorema Generalizzato del Limite Centrale (GCLT) dice che se N è compreso tra 0 e 2, la distribuzione della somma di variabili aleatorie equidistribuite con code che tendono a zero come |X|-(N+1) tende alla forma di una "Distribuzione (alfa-)stabile di Lévy" (simmetrica). Questa famiglia di distribuzioni era stata studiata da Paul Lévy gia' negli anni '20, ed è caratterizzata da quattro parametri:
- Il primo, α, è compreso tra 0 e 2 e determina la rapidità di caduta delle code; in particolare, se α < 2 le code tendono a zero come |X|-(α+1), e la distribuzione è detta "stabile paretiana"; ma se α = 2 la caduta bruscamente diviene molto più rapida, dell'ordine di exp(-x2) come nel caso gaussiano; in effetti, in questo caso la distribuzione si riduce a una gaussiana.
- Il secondo, β, e' compreso tra -1 e +1 e determina l'asimmetria (skew) della PDF. Se β = 0 la PDF e' simmetrica, e se in aggiunta α = 1 la distribuzione si riduce a una Lorenziana.
- Il terzo, γ, è legato alla "larghezza" della curva. Se α = 2, γ rappresenta la deviazione standard; se α = 1, γ rappresenta il parametro dello stesso nome nella Lorenziana, e coincide con la metà dello scarto interquartile.
- Il quarto, δ, è legato alla posizione del picco (moda, che in questa famiglia di distribuzioni è sempre unica).
L'aggettivo "stabile" nel nome dipende dalla più importante proprietà della famiglia: se due variabili aleatorie seguono distribuzioni stabili di Lévy con il medesimo α, la loro somma seguirà anch'essa una distribuzione stabile di Lévy con lo stesso valore di α.
Un'altra interessante proprietà è la seguente: così come per le gaussiane la somma di due variabili indipendenti ha un γ il cui quadrato è la somma dei quadrati degli y delle due componenti (perché nella gaussiana γ rappresenta la varianza, che per variabili indipendenti è additiva), così per la somma di due variabili indipendenti stabili di Lévy vale la relazione generalizzata:
γα = γ1α + γ2α
Questa proprieta' formale, assieme alla relazione allo scarto interquartile relativamente simile nei casi di α = 2 e α = 1, porta a considerare γ un buon candidato per rimpiazzare la deviazione standard quando la varianza semplicemente non esiste. Nel caso di covarianze di più variabili, dovrebbe essere possibile fare lo stesso con i parametri di distribuzioni stabili multivariate.
Infine, una breve nota su un caso diverso ma correlato. Talora, per esempio nel campo assicurativo, non interessano variabili che siano la somma (o la combinazione lineare a coefficienti costanti) di più variabili elementari, ma altre che siano il massimo (o il minimo) di tali variabili elementari. Per questo, sono state studiate distribuzioni che godono della proprietà di stabilità rispetto alle operazioni di massimo e di minimo, anziché di somma: sono quelle appartenenti alla famiglia di "distribuzioni di valore estremo generalizzate" (GEV), sviluppate nell'ambito della teoria del valore estremo (EVT).
Non sparate sul pianista
Il problema di fondo di molta matematica finanziaria in uso corrente quando si tratta di far previsioni su eventi rari (la cui probabilità è sistematicamente sottovalutata) è che una delle sue pietre angolari è il concetto di "volatilità", e questo è definito in termini di deviazione standard. In particolare, questo è vero in tre importanti aree:
- Teoria Moderna del Portafoglio, che fornisce metodi per calcolare un portafoglio con minima volatilità una volta fissato il rendimento, o di massimo rendimento una volta fissata la volatilità;
- Teoria del pricing delle opzioni (formula di Black-Scholes e adattamenti successivi);
- Teoria del Valore a Rischio (VaR), sviluppata dal gruppo RiskMetrics di JP Morgan e adottata (spesso incautamente) un po' da tutti, inclusi i regolatori del Comitato di Basilea sulla Supervisione Bancaria per gli accordi Basilea II.
Peraltro, è da parecchi anni che è stato notato che le distribuzioni dei logaritmi dei rendimenti sui mercati sono tutt'altro che gaussiane. In genere si cita il lavoro svolto da Mandelbrot nei primi anni '60, quando studiando l'andamento dei prezzi del cotone arrivò alla conclusione che essi seguivano una statistica alfa-stabile di Levi con α uguale a circa 1.7 (e quindi piuttosto lontano dal valore 2 che renderebbe la distribuzione gaussiana); ma già nel 1915 l'economista di Columbia University Wesley Clair Mitchell aveva notato che le frequenze dei rendimenti sui titoli azionari fittavano una curva più leptokurtica di una gaussiana, cioè con un picco più affilato e code che scendono meno rapidamente.
La cosa è restata per decenni un "panno sporco da lavare in famiglia", più per responsabilità degli operatori di mercato e della stampa finanziaria che dei ricercatori accademici. Invece, proprio su questo punto la posizione di Nassim Taleb è totalmente negativa: spara a zero su tutti (tranne il suo amico personale Benoît Mandelbrot) e nega si possa fare alcunché di razionale. Ad esempio, nella sua recensione al libro di Mandelbrot "The (Mis)Behavior of Markets" scrive:
Now the question: what if we can't insulate ourselves from such distributions? The answer is “do something else”, all the way to finding another profession. Risk managers frequently ask me what to do if the commonly accepted version of Value-at-Risk does not work. They still need to give their boss some number. My answer is: clip the tails if you can; get another job if you can't. “Otherwise you are defining yourself as a slave”. If your boss is foolish enough to want you to guess a number (patently random), go work for a shop that eliminates the exposure to its tails and does not get into portfolios first then look for measurement after.
Contrariamente a quanto Taleb asserisce, qualcosa si sta facendo per dare strumenti a chi li vuole usare. È in corso da tempo lavoro di ricerca per adattare la matematica finanziaria a casi non-gaussiani: ad esempio, si veda questa collezione di papers e riferimenti bibliografici. Ovviamente le stime del rischio sarebbero più preoccupanti di quelle attuali, spaventando gli investitori e inducendo i regolatori a imporre alle banche capital requirements più elevati: probabilmente, questa è la ragione per cui l'industria finanziaria preferisce far finta di nulla e nascondere la testa sotto la sabbia (salvo poi chiedere salvataggi governativi quando le crisi si verificano).
Forse i ricercatori dovrebbero davvero riservare un po' del loro tempo ad attrarre attenzione sulle loro fatiche, magari scrivendo anch'essi qualche bestseller ribellistico-anticonspiratorio...
un libro non anticospiratore, ma che tratta il problema delle "fat tails" in modo intelligente e senza catastrofismi c'è già: www.amazon.com/Iceberg-Risk-Adventure-Portfolio-Theory/dp/1587990687
è una specie di "math-novel" (definizione di Paul Wilmott) ambientato in una banca d'affari immaginaria. Un "approccio" che si presenta nel testo è quello delle "misture" di normali/binomiali, che è valido per ottenere distribuzioni fat tailed.
Nel link che hai citato, c'è anche Sergio Ortobelli: tutto il dip. di matematica applicata (Bertocchi, Giacometti) di Bergamo si occupa di queste cose. Sono molto in gamba...è anche da un loro articolo che ho maturato l'idea che spero diventi la mia tesi di laurea. Eppure sono un'eccezione: sono davvero poche le facoltà di economia in italia che abbiano un buon dipartimento di matematica applicata alla finanza...oltre a Bergamo, Padova (dove c'è il prof. Azzalini che se ne occupa se non sbaglio). Speriamo che il dibattito su questi temi guadagni centralità senza cacce alle streghe. Intanto complimenti per l'articolo divulgativo.
ah, a proposito di come misurare il rischio: ottimizzazione del C-var per qualsiasi distribuzione (http://www.ise.ufl.edu/uryasev/kro_CVaR.pdf). Il C-var è una misura coerente di rischio en.wikipedia.org/wiki/Coherent_risk_measure
Oltre a Bergamo e Padova, in termini di output accademico direi soprattutto l'IMQ Bocconi e Bologna. E pure Pavia...
Non ho letto il libro, ma nota che misture di distribuzioni non sono generalmente stabili sotto self-convoluzione. Ad esempio, la distribuzione di Voigt , che e' un misto di gaussiana e lorentziana, non e' stabile (sono indebitato per avermi fatto capire questo punto col mio amico ed ex-collega di corso Valerio Parisi). La stabilita' e' importante perche' fornisce una ragione teorica per la forma matematica della distribuzione; da li', analizzando i dati , si puo' poi passare alla stima dei parametri, che peraltro non e' facile guardando quando α e' vicino a 2 (perche' gli eventi rari sono, d'oh, rari :-) ).
Un'altra caratteristica interessante delle distribuzioni alfa-stabili, che e' probabilmente collegata alla stabilita', e' quella di Massima Entropia secondo Jaynes. La cosa generalizza una proprieta' nota della gaussiana per casi in cui la varianza e' finita, anche se la derivazione non e' immediata (vedi p.es. qui e qui).