Carissimi
Grazie per i commenti e le critiche
Credo che per chiarezza sia utile distinguere e trattare separatamente la discussione sui due obbiettivi i) raccogliere numeri legati alla nostra attività di ricercatori con metodi riproducibili ed efficaci, ma allo stesso tempo realistici ii) valutare se qualche combinazione di questi numeri ci può fornire un ranking che, sebbene in maniera imperfetta, correli con una valutazione basato sulla opinioni di un comitato di "saggi"
Raccogliere le pubblicazioni e le relative di citazioni di 60000 docenti
Alla fine di questo messaggio ho aggiunto qualche informazione in più sulla strategia che ho utilizzato per costruire il database. Per rispondere ad alcuni dei vostri commenti cercherò di elencare qui le ragioni per cui le mie tabelle possono sotto(sopra)-valutare l'h index di un collega, intendendo con questo che gli è assegnato un numero di pubblicazioni e/o citazioni maggiore o minore di quanto non gli competa. Qui non sto prendendo in considerazione gli eventuali problemi di copertura di Google Scholar rispetto a ISI o Scopus. Chi è interessato a questo può leggersi la discusisone a http://www.harzing.com/pop_gs.htm
Over-rating
- Al momento mi viene solo in mente il problema dell'omonimia. Il problema è più grave in quelle aree dove si pubblica di meno. Un Agronomo che ha un omonimo medico o biologo ne trarrà sicuramente vantaggio. Affronterò parzialmete il problema mettendo un "flag" a quei colleghi che hanno un omonimo nello stessa Università. Così abbiamo anche una stima di quanto serio sia il problema. Ho anche un altra idea per affrontare il problema dell'omonimia in maniera più generale ma richiederebbe che ci dedicassi più tempo.
Under-rating
- Per mitigare il problema dell'omonimia recupero soltanto "prodotti" di ciascun docente con l'affiliazione che gli assegna il Cineca al momento attuale (Dicembre 2009) quindi chi ha preso servizio recentemente o si è trasferito dopo il 2005 non si vedrà assegnati i lavori prima del trasferimento. Posso facilmete levare questa restrizione ma a scapito dell problema dell'omonimia. Devo valutare quale dei due probemi `è più serio. - Ci sono dei rari casi in cui il cognome riportato al Cineca non corrisponde a quello con cui il docente si firma. - Imprecisioni nel riportare l'affiliazione. - Sempre allo scopo di filtrare l'informazione al fine di mitigare il problema dell'omonimia, la ricerca viene fatta soltanto sulle riviste di competenza dell'area disciplinare secondo la classificazione di Google Scholar (cliccando sul nome di ciascun docente si può vedere , guardando l'url dove ho cercato e cosa ho trovato). Mi sono accorto che per errore nell'area di Chimica non ho incluso le riviste di fisica. Questo ha fatto sì che in alcuni SSD, tipcamente quello di chimica fisica, i paper recuperati fossero in numero minore rispetto a quelli attesi. Rimedierò a questo errore rifacendo l'analisi per chimica entro la settimana prossima. - Avendo solo considerato pubblicazioni in lingua inglese posso aver penalizzato le aree letterarie e socio economiche. Ma ho pensato, forse a torto, che anche queste aree dvevono dimostrare di sapersi confrontare con una platea internazionale,
Apprezzo qualsiasi segnalazione/critica e suggerimento che mi aiuti a migliorare l'infomazione fornita nel database.
Qui di seguito rispondo ad alcuni dei vostri commenti
Polizzi
Per la mia Università ho trovato solo un Ca' Foscari Venez... che da solo una pubblicazione per i quattro associati che trova. Probabilmente esiste un'altra denominazione che non è stata inclusa tipo Univ. Ca' Foscari...
Questo è sicuramente un problema per cui l'Università Ca foscari è stata penalizzata. Mi aiuterebbe se mi facessi una lista di tutte le varianti possibili della tua Università nelle affiliazioni. Forse sarebbe sufficiente cercare per "Venezia"!!
Battiston
un altro punto riguarda la comfrontabilità di diversi settori di ricerca: agraria e fisica solo per fare un esempio, non hanno le stesse dinamiche di pubblicazioni. Ma a questo si puo' ovviare introducento un in indice H normalizzato, che sostanzialmente pesa le distribuzioni dell' indice H di una area scientifica con il valore medio dell' istogramma dell' area. In questo modo tutti i gli indici H diventano confrontabili come mostrato in articoli del settore bibliometrico. Questo è un grande vantaggio, ma non è per ora implementato nel software di Cesareni.
L'ultima colonna della tabella mostra proprio questo H-index normalizzato. In pratcia è uno Z-score ovvero rappresenta il numero di deviazioni standard per cui l'hindex di quel collega si discosta dalla media del gruppo concorsuale. (Non mi venite a dire che questo è significativo solo se la distribuzione è normale perchè lo so). Tenete presente che questo indice perde di valore in quegli ssd dove il numero medio di pubblicazioni è vicino a zero con una deviazione standard molto bassa. Un membro di questo gruppo concorsuale che abbia fatto una pubblicazione all'anno ottiene un indice normalizzato sproporzionalmete alto.
In generale l'indice h dovrebbe riguardare la carriera di un ricercatore, non gli ultimi tre anni della sua attività.
S,i però l'H index sulla carriera punisce i giovani mentre io volevo avere un'idea di chi fosse nella fase produttiva della sua carriera
Mi chiedo se sia possibile introdurre altri parametri, per migliorare l'analisi, es l'età in servizio del personale, la dimensione del dipartimento analizzato etc...
Naturalment posso fare qualsiasi manipolazione dei dati che riesco a trovare. Per esempio l'anzianità di servizio non credo che sia ottenibile in maniera automatica su larga scala. Le dimensioni dei dipartimenti invece si possono calcolare facilmente
La Carbonara Ho segnalato a Gianni, dopo alcuni test da me eseguiti, che vi è il problema delle omonimie per cui i conteggi dei prodotti e citazioni deve essere fatto con un refinement dei sottodomini attraverso le keywords degli ambiti. Se si risolve questo problema, possiamo fare azione di diffusione più ampia.
Il problema dell'omonimia su così larga scala si può risolvere solo con ... la magia. In atteva di sviluppare strategie di ricerca più sofisticate per adesso metterò un "flag" dove c'è un problema di omonimia.
Vitale
Ho provato a cercare su google scholar il mio nome e universit di napoli invece che università di napoli e ho trovato piu' lavori, perche' le lettere accentate a volte danno problemi. Si puo' inserire questa modifica?
Questo è un problema che ho affrontato e non so se ho risolto in maniera ottimale. In pratica ho utilzzato una serie di termini sinonimi in modo da coprire tutte le più fantasiose versioni di ciascuna affiliazione. Ma devo ammettere l'ho fatto in una mezzoretta. Allego il file con i sinonimi. Se qualcuno vuole suggerire qualche aggiunta sarò felce di implementarlo ... dopo che ho finito di scrivere un grant.
Lattanzi
altra curiosità, i risultati non sono interamente consistenti con Publish or Perish, che pure usa Google Scholar.... Non è possibile ripetere esattamente l'esperimento con publsh and perish perchè le citazioni e di conseguenza l'H index cambiano con il tempo. La mia analisi è stata fatta a dicembre del 2009. Inoltre bisognerebbe sapere esattamente cosa ho fatto .. cosa che prima o poi troverò il tempo di decrivere in dettaglio. Se invece le differenze sono più sostanziali mi interesserebbe sapere i dettagli
forse sono io imbranato, ma ho interrogato il programma dando come filtro la mia sede (Cagliari) e il mio SSD (GEO/09), e confonde i dati di S(tefano) Naitza (che è del SSD GEO/09) con quelli di S(ilvia) Naitza,
Non sei imbranato. Innanzitutto, per chiarezza, tu interroghi un database e non un programma. Non è pignoleria ma serve a spiegare che la raccolta delle informazioni ed i relativi calcoli sono stati fatti l'anno scorso. Questo ha permesso di creare il database che interroghi online. Il programma che ha scaricato l'informazioen è naive ed identifica un autore con il cognome l'iniziale del nome ed un'affiliazione semplificata per attenuare i problemi citati da Vitale. Nel caso dell"'università di Cagliari" l'affiliazione semplificata è "Cagliari" Quindi S(tefano) Naitza Università di Cagliari e S(ilvia) Naitza CNR Cagliari sono ... la stessa persona. Si può provare ad affronate questi problemi ma tenete conto che bisogna trovare qualche soluzione che vada bene per tutti i 60000 docenti.
Zannier
Concordo! Ho riscontrato anch'io moltissime assurdita', anche facendo confronti sul piano internazionale.
Non capisco se il commento si rferisce al fatto che contare il numero delle citazioni e pubblicazioni produce valutazioni assurde oppure al fatto che il mio script non ha funzianato ed ha quindi prodotto numeri assurdi. Sono più interessato ai commenti specific che mi facciano capire cosa non funziona, piuttosto che hai commenti generici. Per esempio "moltissime" significa il 10%, 50% o 90% ... e quali? Cosa vuol dire "confronti sul piano internazionale" in questo contesto. Non c'è un h-index nazionale ed uno internazionale. Inoltre ho solo considerato pubblicazioni in lingua inglese? Ho cercato di capire il perchè di questa senzazione negativa. Ho dato un'occhiata all SSD di Geometria. Se ordino per H index (cliccando sull'header) 4 dei primi 5 hanno un omonimo nell'area biomedica (potete controllare cliccando sul nome ed analizzando gli articoli che vengono recuperati). E' questo che crea confusione?? Spero che mettendo il flag sugli "omonim"i si contribusica ad una maggiore chiarezza
Valutare quanto (e se) questi numeri correlino con con una percepita ma non ben definita graduatoria di merito
Su questo è già stato scritto di tutto ed il contrario di tutto. Il mio obbiettivo per adesso è produrre dei numeri che contengano il minor numero possibile di errori e correggere alcune distorsioni .. poi vedremo. Forse possiamo metterci tutti d'accordo sulle conclusioni "... credo che la bibliometria non sia di per sé né sana né insana. Sono sani o insani gli usi che se ne fanno...." e " .. bisogna diventare un paese serio ..." In ogni caso il problema limitante in questa discussione è che manca una lista di buoni e cattivi. Il cosidetto "golden standard" con cui confrontarsi. Non mi aiuta sapere che il metodo di contare pubblicazioni e citazioni produce "assurdità". Se un comitato di saggi nelle varie aree mi dicesse chi è valutato come "bravo" e chi come "somaro" (naturalmente sto semplificando), potrei accettare o confutare questa conclusione in maniera quantitativa. Il suggerimento di Valdinoci di utilizzare i risulttai delle commissioni di concorso come "Goldenn Standard" o come paragone è un'altra possibiltà che però vorrei evitare perchè vorrei tenermi lontano dai concorsi per evitare alcune delle distorioni nell'uso del database come già discusso. Per il CIVR sono compleatmente d'accordo con Battiston
A presto
Gianni
Un pò di documentazione
- Ho usato il programma di python qui allegato. L'ho allegato per completezza ma non mi aspetto che sia utilizzabile da qualcuno in queste condizioni. Prima o poi lo commenterò -Il programma accetta in input un file dove su ogni riga è contenuta per ciascun docente l'informazione che ho scaricato dal cineca - Per evitare che vengano perse pubblicazioni a causa dei modi diversi di annotare la stessa affiliazione uso un dizionario di affiliazioni "semplificate" (allegaato) Il programma interroga Google Scholar per recuperare tutte le pubblicazioni e relative citazioni di quell'autore con l'affiliazione presente al CINECA negli anni dal 2005 al 2008
Per esempi Rossi Maria Grazia, Università di Tor Vergata verrà identificata come M Rossi, Tor Vergata (Nota bene uso una sola iniziale M Rossi trova anche MG Rossi ma MG Rossi non trova M Rossi).
Gli indici recuperati/calcolati sono il numero totate di documenti. i documenti con almeno una citazione, il numero totale di citazioni, la pubblicazione con il numero maggiore di citazione e l'indice H
Un altro programmino normalizza i risultati valutando per ciascun individuo lo Z score ovvero la distanza dalla media dell'indice, nell'SSD, misurata in unità di deviazioni standard.