Ricerca e pubblica amministrazione in salsa kafkiana

18 febbraio 2011 giovanni prarolo

Ecco cosa succede quando si cerca di combattere un’istituzione pubblica per mezzo di un’altra istituzione pubblica.

Mio malgrado, ho scelto di ambientare il mio prossimo progetto di ricerca nel lisergico reame dei comuni italiani. Senza entrare troppo nello specifico, mi servono alcune serie di voci di bilancio, i risultati elettorali e poche altre informazioni per gli 8000 e passa comuni italiani. I dati di bilancio e quelli riguardanti le elezioni (almeno per gli ultimi anni) sono pubblici e, a parole, disponibili online (i bilanci e le elezioni). Fatevi un giro e contate quanti click servono per ottenere, chessò, il consuntivo, in conto competenza, dei “Contributi e Trasferimenti Correnti dalla Regione” per il comune di Canicatti’ (esatto! non Canicattì: se lo scrivo così il sistema non lo riconosce), nel 2007. Per il dato sulle elezioni comunali, amenità simili. Nessuna traccia di mastodontici, ma a noi utilissimi, file tipo excel, stata, txt, etc. con dentro tutta e solo l’informazione necessaria, oppure form da compilare per ottenere i dati (un paio di anni fa anche Andrea Moro raccontò le sue peripezie, in quel caso riguardanti Eurostat e ISTAT).

Il passo successivo è stato contattare direttamente gli uffici preposti alla raccolta e diffusione dei dati. Per quanto riguarda i dati di bilancio la risposta definitiva ad una mia richiesta di tre (3!) serie di variabili per gli anni 1998-2008 per tutti i comuni italiani (dopo svariati carteggi che vi risparmio per decenza) è stata:

Egregio Dottore,

attualmente mi chiede troppo.

La capacità del mio ufficio di estrarre dati ed elaborarli è attualmente indirizzata esclusivamente a beneficio della COPAFF, come collaborazione istituzionale al federalismo fiscale.

Pensavo che volesse pochi dati.

Se facciamo a tempo ne potremo parlare la prossima primavera.

Cordiali saluti,
XXXXXXX XXXXXXX

Me li posso immaginare tutti lì, nell’ufficio polveroso del ministero, a cliccare come pazzi sulla stessa maschere user-UNfriendly che vedo dal mio laptop…

Abbandonato l’approccio standard, alcuni amici e colleghi particolarmente nerd mi hanno introdotto all’uso di quei programmini, chiamati crawler, che “vanno in giro” per la rete e scaricano i dati richiesti. L’unico problema, superabile, è impararsi 3-4 regolette per “leggere” i codici HTML, ma è roba di un pomeriggio. Armato di buona volontà, mi scarico la trial version di questo programmino e faccio le mie “maschere” che, dopo qualche tentativo, funzionano a meraviglia. L’ingrediente mancante è l’acquisto della licenza del software (89€ + IVA, da una softwarehouse olandese), che una volta ottenuta permette di salvare su computer i dati scaricati dalla rete.

E qui parte la sezione più kafkiana (anche se di kafkiano, e fantozziano, ce n’era già, soprattutto nelle mail omesse).

Grazie ad una particolare congiunzione astrale in cui diverse modificazioni procedurali si sono sovrapposte, mi informo presso gli amministrativi del mio Dipartimento (di una competenza e disponibilità estrema) che i passi da fare sono i seguenti:

1) Mi faccio autorizzare l’acquisto del software dal mio tutor (essendo io assegnista di ricerca), con indicazione del fondo sul quale caricare i costi.

2) Visto che l’acquisto è di modesta entità, fortunatamente non si passerà dalla piattaforma CONSIP (al momento bloccata da tre giorni)

3) Il Dipartimento deve:

3.a) farsi fornire dal venditore di software il codice IBAN sul quale fare il bonifico bancario, insieme all’indicazione del legale rappresentante del conto stesso. Per la tracciabilità dei conti, OVVIAMENTE sono vietati i pagamenti attraverso carte di credito o sistema PayPal.

3.b) in quanto Ente Pubblico, evitare di “fare affari” con soggetti loschi: deve quindi ottenere dall’INPS (o omologo, nei paesi esteri? Non è chiaro…) un certificato che attesti che il nostro venditore di software paghi i contributi ai suoi lavoratori.

4) Infine, se i punti (a) e (b) vanno a buon fine, procedere con l’acquisto.

Guarda caso, al momento vige uno stallo completo (così come per i famosi co.co.co. sì (FIRB) vs co.co.co. no (Gelmini), ma questa è un’altra storia che chi è più informato di me può divertirsi a raccontare) per via dell’interpretazione dei regolamenti, delle eccezioni, delle norme temporanee, etc. In settimana dovrebbe esserci una riunione (o un tavolo? Fa molto “problem solving” de noantri…) fra gli amministrativi dell’Ateneo per dirimere le diverse questioni.

Alcune considerazioni finali.

In linea con Massimo Bordignon, che aveva già scritto su Lavoce.info, temo che la difficoltà nel reperire i dati non sia solo frutto del caso e/o dell’incompetenza dei funzionari del Ministero dell’Interno. Come insegnano questo ed altri blog/siti/giornali liberi, la forza dei numeri può essere enorme se se ne fa un uso rigoroso.

Infine, la riflessione va alla differenza fra parole e fatti concreti. Siamo sicuri che all’Italia serva davvero questo, mentre al mio dipartimento viene imposto di fare il lavoro degli ispettori dell'INPS andando a controllare se i suoi fornitori pagano i contributi ai dipendenti???

27 commenti (espandi tutti)

Ciao Giovanni. Piacere vederti qui. Ma lavorare su cose piu' friendly no?

Sei fortunato che la softwarehouse è olandese. Se avesse avuto sede in un paese Black list (tipo Svizzera, non c'e bisogno di andare nelle Cayman Islands) i tuoi amministrativi ti avrebbero sparato in fronte piuttosto che autorizzare l'acquisto.  Sempre per via dei soggetti loschi...

 

Si tratta di un caso particolare di una regola generale. La formazione quasi esclusivamente giuridica dei pubblici funzionari che redigono leggi e regolamenti, oltre la scarsa immaginazione e le modeste capacità intellettuali di molti di loro, portano a redigerli senza alcuna considerazione delle implicazioni pratiche e senza riguardo alcuno del costo in termini di tempo e di rotture di ogni tipo per coloro che queste leggi e i regolamenti sono tenuti ad applicare. Inoltre la completa irresponsabilità ex post giustifica le peggiori vessazioni ex ante.

Nell'ambito delle informazioni necessarie alla ricerca, incideva la grande riforma brunetta? Non doveva essere tutto sul web?

Ovviamente non ti sto consigliando quello che scrivo perché è illegale, ma mettiamo per ipotesi che comperassi il software per conto tuo con i tuoi soldi, e poi facessi una trasferta con spese di 89 euro di benzina, dichiarate con una autocertificazione? Per esempio un sabato che il Dipartimento è chiuso, dico.

 

non esistono software open source gratuiti che permettono di fare quello che desiderava Prarolo?

http://java-source.net/open-source/crawlers

 

PS

per la cronaca Open Source non vuol dire gratuito... anche se spesso e volentieri lo sono, comunque i software di cui sopra dovrebbero essere gratuiti (sicuro lo è Heritrix)

Tecnicamente a lui servirebbe uno scraper non un crawler.

Ci sono delle librerie abbastanza semplici da usare in Perl, Python e simili, ma un programmello gratuito completo e facile non mi sembra di ricordarlo

Un'alternativa sarebbe automatizzare il browser con Chickenfoot for Firefox ma per 8000 comuni mi sa che è una discreta rottura 

Se proprio non se ne viene a capo posso rispolverare le mie scarse conoscenze nel settore e vedere se si mette su uno scriptino o qualcosa

Ad ogni modo, cio' non cambia lo stato delle cose: viviamo in un sistema dove alcuni si fregano sfracelli di denaro, e le regole farraginose che abbiamo non servono altro che a mettere i bastoni tra le ruote a chi vorrebbe lavorare.

Conosco un'altra storia del genere: mi documento meglio e poi ri-commento.

 

 

Ad ogni modo, cio' non cambia lo stato delle cose: viviamo in un sistema dove alcuni si fregano sfracelli di denaro, e le regole farraginose che abbiamo non servono altro che a mettere i bastoni tra le ruote a chi vorrebbe lavorare.

Esattamente, è proprio questo che ti rode l'anima.

Per quanto riguarda la parte "smanettona", un amico informatico si è preso a cuore la cosa e, nonostante la quasi incomunicabilità dettata da background differenti, stiamo(sta, in realà) mettendo in piedi un programmino abbastanza flessibile per poter fare quello che mi serve. L'idea, nel medio periodo, è rendere fruibili, a parte i dati scaricati, il programmino in questione. Stay tuned!

Da un anno circa è quasi impossibile ottenere i dati dei Comuni (per non parlare della loro qualità, ma qui la colpa è forse dei dipendenti comunali che riempiono le caselline, immagino).

Prima però devo dire che il sito funzionava abbastanza bene: si poteva fare richiesta online e poi scaricare i dati. Oppure scrivere a XXX XXX, come ha fatto l'autore del post. In questo caso (ho ricevuto esattamente la stessa risposta, l'ultima volta), la cosa divertente è che la richiesta doveva arrivare su carta intestata della mia università (quindi almeno via fax), con promessa solenne di ringraziamento e citazione nel paper, nonchè invio della ricerca ultimata.

Che il blocco pro COPAFF sia effettivo o strumentale non si sa. Nel dubbio, fidiamoci.

I miei colleghi hanno scoperto che c'e' una fondazione dell'Universita' in cui fare passare i fondi delel convenzioni che ti danno una carta di credito ricaricabile per la cifra del preventivo. Ovviamente questo sta spolpando i dipartimenti in cui il personale amministrativo fa troppe storie per farti spendere i soldi, ma credo che questo sia un bene. Io, per esempio, per una serie di viissitudini kafkiane e per la mia ostinazione a voler comperare delle librerie all'IKEA (perche' mi costano molto meno che da qualunque altro posto e se non vado da loro non ho i soldi per comprare quello che mi serve) e' da Giugno che aspetto che mi vengano comperate le librerie che ho richiesto. L'ultima storia che ho sentito e' che in Dicembre, siccome devono fare non so quale operazione contabile sui fondi, fino a fine Gennaio non se ne parla. Ora e' meta' Febbraio e andro- a sentire questa volta cosa mi raccontano. Per meno di 100 euro io ho deciso che pago di tasca mia e mi porto a casa l'acquisto, senno' mi viene il cimurro. E noi abbiamo fortuna, perche' c'e' uno addetto agli acquisti, per cui non devo perdere tempo su consip, basta che gli porti un foglio ccon il materiale che mi serve e ci pensa lui.

 

L'associazione openpolis ( http://associazione.openpolis.it/progetti/openbilancio ) e Linked Open Data ( http://www.linkedopendata.it/openbilancio ) stanno lavorando a un futuro progetto basato sui dati (suppongo) di http://finanzalocale.interno.it/  , il progetto dovrebbe essere lanciato verso meta' 2011, magari hanno già i dati grezzi che hanno ottenuto con lo scraping sui cui stanno lavorando, e contattandoli magari qualcosa si può ottenere.

Grazie della dritta, non mancherò di contattarli.

Ciao Giovanni,

io ho esperienze simili in un'azienda. L'unica cosa for free che mi viene in mente e di fare un programmino in Python. Se le URLs sono standard (tipo cambia solo il nome del comune), non dovrebbe essere una cosa impossibile.

Fai un ciclo di for che luppa su una lista di comuni e risolvi, no?

Vorrei anch'io condividere un briciolo di esperienza. 

Python?

Sicuramente costituisce un'opzione interessante.

Esiste tuttavia un'alternativa, che si colloca a metà tra lo sviluppo per intero del codice necessario ed una soluzione user-friendly: il software screen-scraper.

La versione base del software è scaricabile in licenza gratuita. 

Ho personalmente fatto uso di screen-scraper nel corso di una collaborazione 150ore con l'ufficio operativo del dipartimento di Sociologia e Ricerca Sociale dell'univeristà di Trento.

Il progetto consisteva in una estrazione di dati da pagine web, visualizzati con un pattern ricorrente.

Limitatamente a questa mia esperienza mi sentirei di consigliarne l'utilizzo. Il software è veramente semplice da usare e ben documentato. Nonchè gratuito. E' inoltre possibile integrarlo con applicazioni sviluppate ad-hoc con API nei principali linguaggi di programmazione.

Per quanto riguarda i dati elettorali. L'anno passato ho ottenuto dall'archivio storico i microdati delle (a) elezioni regionali e (b) della camera 2008 in tempi molto rapidi (meno di 24h) ed in formato perfettamente machine-readable. Il dirigente che si è occupato della cosa è stato molto cordiale e disponibile.

Per la richiesta mi ero rivolto all'indirizzo elezioni.storico@interno.it

Prova con le soluzioni open-source:

http://www.google.it/#sclient=psy&hl=it&safe=off&q=Web+Data+Extraction+open+source&aq=f&aqi=&aql=&oq=&pbx=1&fp=a4568c70ec1af03c

il web extraction non è un argomento che conosco abbastanza per darti un buon consiglio ma potresti provare con queste soluzioni "aggratis" 

A quanto vedo mi pare di intuire che di soluzione open-source neanche a parlarne. E poi ci si lamenta della burocrazia... mah...

Infatti. Mettermi a lavorare con i mio amico informatico va, nel nostro piccolo, nella direzione di riempire questo gap: data la struttura di internet, basta relativamente poco (i.e. poco per un informatico, tanto per un economista...) per utilizzare al meglio la massa enorme di dati disponibili. Comparative advantages work!

Quello che faccio è crearmi gli URLs da visitare (mediante excel, stata, etc.) e darli in pasto al programmino (al momento HappyHarvester, comprato coi miei soldi sperando in un rimborso futuro), il quale scarica quello che gli dico di prendere: si indica i "pezzi" di HTML prima e dopo il dato interessante e lui li salva in csv.

Trovate pochino perchè son quasi tutte librerie.

Il termine usato sul web per questa attività è scraping non extraction

Occhio alla licenza con cui sono fornite le pagine che può non sempre essere favorevole.

Dai un occhio a chickenfoot per firefox. Eà un addon che ti permette di registrare anche delle macro se ricordo bene.

 

Fai un ciclo di for che luppa su una lista di comuni e risolvi, no?

 

eeeehhhh????? ecchevvoldì?

da orecchiante di informatica, dopo qualche minuto ho capito che era qualcosa tipo "looks up", ma c'è bisogno di massacrare la nostra lingua così, peggio c'è solo "ti scanno il documento", che uno pensa alle pozze di sangue sulla scrivania

Re: Luppa?

lugg 21/2/2011 - 14:07

No Marino, vuol dire "che fa un loop", cioe' un ciclo. Un neologismo un po' meno aberrante sarebbe "cicla".

 

Non riesco a comprendere gli atteggiamenti di stupore quando si entra in contatto con il mastodonte P.A. Ho scritto diverse volte che "Renatino" non ha fatto altro che creare fumo, non solo, non ha previsto alcuna valutazione seria del merito dei dipendenti pubblici.

Per quanto riguarda i contributi inps, e giusto controllare, anche perchè, non sembra serio ingrassare con i soldi pubblici chi fa concorrenza sleale non pagando i propri dipendenti

Nel tentativo di mettere freno alle spese pazze degli enti pubblici (tipo le trasferte del Sindaco di Salemi in Bulgaria?), il sempre geniale Voltremont ha voluto darci un taglio netto: col DL.78/2010 si prevede che le amministrazioni pubbliche non possano spendere in missioni piu' del 50% di quanto speso nel 2009 (art.6 comma 12).

Purtroppo c'e' un dettaglio che sembra essere sfuggito al legislatore: anche le universita' sono amministrazioni pubbliche, e la regola sembra applicarsi anche ai ricercatori.

La cosa e' demenziale:  i convegni e le collaborazioni (anche internazionali) sono essenziali per l'attivita' di ricerci. E' semplicemente folle trattare queste missioni alla stregua dei gemellaggi dei comuni o delle improbabili spese di rappresentanza delle regioni. 

Finora le universita' son riuscite ad ottenere che questa regola non si applichi a fondi finalizzati (PRIN, conto terzi, etc). Il problema e' che a causa del ritardo dello stanziamento del fondo PRIN (stiamo ancora aspettando l'assegnazione del PRIN 2009 ;) molti ricercatori possono fare conto quasi solo sui propri Fondi d'Ateneo (che sembrano essere vincolati dal DL).

Quando si parla di competitivita' del sistema universitario sarebbe bene  ricordare anche questi aspetti demenziali del sistema: e' ben difficile vincere una  gara se si e' costretti a correre col freno a mano tirato.

col DL.78/2010 si prevede che le amministrazioni pubbliche non possano spendere in missioni piu' del 50% di quanto speso nel 2009 (art.6 comma 12).

Concordo con la demenzialita' di questo provvedimento, e' evidente che chi ha legiferato non sa cosa voglia dire fare ricerca: uno dei compitii "istituzionali" del ricercatore e' comunicare in pubblico i risultati del proprio lavoro, cosa che tipicamente avviene andando in missione ad una conferenza, che e' cosa radicalmente diversa dai politici che vanno a fare scampagnate all'estero in aerei di Stato con seguito di parenti, nani e ballerine.

Concordo con la demenzialita' di questo provvedimento, e' evidente che chi ha legiferato non sa cosa voglia dire fare ricerca: uno dei compitii "istituzionali" del ricercatore e' comunicare in pubblico i risultati del proprio lavoro, cosa che tipicamente avviene andando in missione ad una conferenza, che e' cosa radicalmente diversa dai politici che vanno a fare scampagnate all'estero in aerei di Stato con seguito di parenti, nani e ballerine.

Aggiungo un dettaglio (forse utile per i non addetti ai lavori). I fondi (non solo quelli finalizzati come i PRIN, ma anche quelli di ateneo) vengono distribuiti (ai singoli o ai gruppi) in base ad una valutazione dell'attivita' di ricerca svolta: le risorse sono contingentate, non sono un grande pozzo dove ciascuno puo' pescare quanto vuole.

Quindi sta a ciascun ricercatore impiegare al meglio i fondi che riceve, in modo da produrre il massimo, e quindi ottenere ulteriori finanziamenti: questo e' in genere cio' che accade.

Se io usassi i miei fondi per andare a puttane (a parte alcuni problemini di rendicontazione :) mi taglierei le gambe da solo, in quanto mi mancherebbero i fondi per condurre le mie ricerche, il che vorrebbe dire meno fondi (o niente fondi) in futuro.

Inizia una nuova discussione

Login o registrati per inviare commenti