Titolo

I bambini so' piezz'e core...

5 commenti (espandi tutti)

JB, sono complessivamente in disaccordo con il tuo commento. Mi sono letto le note metodologiche (appendice 5) del testo INVALSI e mi sembra che siano analisi corrette pur con tutti i  limiti degli studi osservazionali.

Devi tenere presente che gli errori sistematici non sono sempre eliminabili tramite il disegno dell'indagine. Che tipo di controlli a priori e posteriori proponi? In questo caso la distribuzione di questionari differenti come propone Aldo Rustichini puo' essere utile per ridurre gli scopiazzamenti tra studenti, ma non ha nessun effetto se l'insegnante suggerisce le risposte corrette agli studenti. Evitare questo secondo errore sistematico avrebbe richiesto l'invio di commissari in ogni classe e probabilmente l'allontamento degli insegnanti di ruolo dall'aula durante il test.

Riassumo per i lettori qui di seguito i passaggi metodologici adottati da INVALSI

1- Hanno presentato i risultati grezzi

2- Hanno proposto 4 indicatori che gli autori ritengono siano correlati con la probabilita' di comportamenti opportunistici (media, scarto quadratico medio, Indice di Gini di eterogeneita', e indice di partecipazione) e li hanno stimati classe per classe.

3- Inoltre, poiche' gli autori sembrano consapevoli che nessuno di questi indicatori e' sufficientemente sensibile e specifico, nessuno di loro e' usato isolatamente ma assieme agli altri. Gli autori hanno "creato" quindi un indicatore sintetico di "cheating": gli autori ipotizzano infatti che ognuno di questi indicatori concorra, da diversi punti di vista, a definire la variabile latente a cui sono interessati, la probabilita' che i professori o gli studenti o entrambi barino al test.  L'analisi delle componenti principali che hanno eseguito e' coerente con questa ipotesi (mi chiedo perche' abbiano estratto 2 componenti invece che 1 quando i dati empirici puntavano abbastanza chiaramente per una soluzione mono-fattoriale). Hanno quindi costruito 2 punteggi che indicano la propensione a barare usando i coeffcienti prodotti da questa analisi.

4- Successivamente hanno usato un algoritmo di clustering per raggruppare le classi in base al valore che ogni classe aveva nei punteggi calcolati come descritto al punto 3 e usato questo coefficiente finale per correggere i risultati del test. 

Non mi pare esista quindi alcun tentativo di barare di INVALSI per far tornare i conti secondo le ipotesi iniziali. INVALSI infatti non usa alcuna ipotesi a priori iniziale sulla propensione a barare delle diverse regioni. La misura empiricamente, classe per classe, tramite degli indicatori, questi si' decisi a priori. Il metodo proposto da JB mi e' invece oscuro. Come pensa di assegnare i coefficienti a priori? Come si puo dire che la regione X bara Y volte di piu' della regione Z se non tramite qualche metodo empirico diretto o indietto?

E' chiaro pero' che anche l'analisi INVALSI non e' priva di limiti. 

1- Come hanno scelto i 4 indicatori selezionati? Anche se ragionevolmente sembra che gli indicatori selezionati siano correlati alla propensione a barare, non vi e' alcuna prova empirica che sia in effetti questo il caso. Dovrebbe essere presentato uno studio di validazione per confermare questa ipotesi. Questa incertezza si riflette anche sull'interpretazione dei fattori estratti dalla PCA e sul coefficiente di correzione finale.

2- I coefficienti di correzione potrebbero non essere stabili. Sarebbe necessario cross-validarli e aggiungere appropriate analisi secondarie per verificare la robustezza dei risultati.

Luca hai letto il mio post precedente?

Al punto 3) fai un resoconto corretto degli indicatori usati. 1) la media, ovviamente correlata con la performance di ogni classe. 2) variabilita' intorno alla media, ovviamente migliore e' la performance di ogni classe minore sara' la variabilita' (se tutti danno risposte esatte la variabilia' e' zero). 4) la variabilita' delle risposte in generale, anche questa correlata con la performance. Piu' risposte corrette ci sono in una classe e piu' risposte uguali ci sono poiche' quella corretta e' la stessa per tutti. Dicevo nel mio post che, curiosamente, quest'ultimo indicatore non e' stato "depurato" delle risposte corrette. E' chiaro che risposte uguali e sbaglaite siano un indicatore di cheating vero.

Il mio problema e' che con questi indicatori automaticamente i ricercatori dell'INVALSI hanno associato una probabilita' maggiore di cheating a quelle classi che hanno presentato risultati migliori. Questo ti sembra un metodo valido??

Vincenzo, non avevo letto il tuo post precedente. La tua mi sembra una critica corretta. Chi ha ottenuto punteggi alti ha anche piu' probabilita' di finire classificato come cheater anche se la correlazione tra punteggi medi e fattore di correzione e' piuttosto debole (r=0.4). Questo indica che altri fattori sono piu' importanti nello spiegare il coefficiente di correzione che non la performance. Come avevo fatto notare penso che sia necessario che validino il loro indicatore sintetico. Cosi' com'e' non puo' certo essere usato per, ad esempio, stanziare fondi...

Avrebbero dovuto depurare questo indicatore dalle risposte corrette o usare anche il numero di risposte concordanti e sbagliate. Anche se in questo caso non si elimina la distorsione causata dal fatto che i professori suggeriscono le risposte corrette per migliorare i risultati della loro classe.

E' anche vero pero' che questi test (e immagino anche questo) sono spesso tarati per ridurre i ceiling effect che riducono il potere discriminante del test stesso anche attraverso la differenziazione dei punteggi dati alle domande "facili" e alle domande "difficili". Se la proporzione di punteggi al top e' estremamente fuori dalla norma per le domande difficili e' lecito pensare che ci sia qualcosa di storto. Cioe' ho l'impressione (che andrebbe sostanziata da uno studio di validazione) che l'indicatore in questione abbia fatto il suo mestiere di individuare gli outliers (e quindi i sospetti). Se guardi i coeffficienti in effetti in genere la correzione non e' cosi' forte tranne che per qualche regione (calabria e campania in testa). Plottando i coefficienti di correzione e le medie si vede proprio che ci sono 3 clusters distinti per quanto riguarda i coefficienti di correzione (1: calabria e campania; 2: Abruzzo Basilicata, Sicilia e Puglia; 3: tutti gli altri) a fronte di una sostanziale omogeneita' della distribuzione delle medie.

Penso che esistano certamente degli algoritmi migliori di quello usato ma questo mi pare una approssimazione migliore che lasciare solo i dati grezzi.

Per JB: ho capito, ma non ho avuto l'impressione che il metodo usato sia stato implementato solo a posteriori, anzi. Tu da dove deduci che questi si sono guardati risultati che non piacevano e dopo abbiano magheggiato per aggiustarli?

Da pagina 2 del rapporto:

Dal campione emergono evidenti indicazioni di comportamenti opportunistici in alcune scuole.
Questo fenomeno ha richiesto una procedura di correzione dei dati (editing statistico) per eliminare
l’effetto distorsivo prodotto dai suddetti comportamenti anomali.

Magari son io che amo pensar male ma quel che leggo è che "dal campione emergono evidenti indicazioni di comportamenti opportunistici" e che quindi sono state adottate procedure di correzione dei dati. Non che era stata predisposta una procedura d'analisi che tenesse conto di questi (prevedibili) comportamenti opportunistici.

Non ci siamo capiti. Ma dato che in questi casi la colpa è di chi non si è fatto capire faccio un mea culpa e ci riprovo.

Premesso che a me l'Indice di Gini di eterogeneità non sembra s'ta gran genialata (in un test a crocette è ovvio che tutte le risposte giuste saranno identiche) il mio punto non era sulla qualità della trattazione statistica. Il punto è che le metodologie da applicare vanno decise prima di avere i dati in mano, poi applicate e infine i risultati finali vanno accettati. L'impressione (che può essere smentita da qualcuno che abbia letto il report dell'Invalsi con più attenzione) invece è che questa trattazione statistica sia stata scelta dopo aver visto che le cose non tornavano. Ovvero: dato che i dati non mi suonano invece di prenderli così come sono (come avevo inizialmente ipotizzato di fare) li tratto statisticamente con un metodo ad hoc che elimini quelo che io ipotizzo essere il motivo della discrepanza fra attese e risultati.

Io non voglio assegnare i coefficienti a priori (sarebbe, ovviamente un'idiozia), voglio decidere il metodo di trattamento dei dati a priori. Se tutta l'analisi descritta nell'appendice 5 era stata preventivata prima di svolgere i test allora mi va tutto bene (a meno di discutere la scelta degli indicatori). Se invece è stata messa insieme dopo aver visto i risultati invece non mi va bene per niente.

Mi sono spiegato un po' meglio?