Re: [Universitas_in_trasformazione] Indicatori

22 Mar 2010

      Caro Gianni, grazie per il chiarimento su h-norm, mi era sfuggito, non avevo
capito cosa fosse.
A questo proposito, forse lo hai già fatto, perché non mettere in rete sul
tuo sito un minimo manualetto d'uso DEL TUO SOFTWARE. Nel tuo sito si
rimanda a PoP ma credo che siccome la tua interfaccia è potente, sarebbe
opportuno una paginetta in cui con una data per ogni modifica sia descritto
A) che cosa fa, come si usa, che cosa ci si puoì cavare
B) le modifiche che via via vengono applicate al DB o al resto del software.
C) problemi noti
D)....
In questo modo sarà per tutti piu' semplice usarla
RB
On 22/03/10 09:29, "Gianni Cesareni" cesareni@uniroma2.it wrote:
...
Carissimi
Grazie per i commenti e le critiche
Credo che per chiarezza sia utile distinguere e trattare separatamente
la discussione sui due obbiettivi i) raccogliere numeri  legati alla
nostra attività di ricercatori con metodi riproducibili ed efficaci,
ma allo stesso tempo realistici ii) valutare se qualche combinazione
di questi numeri ci può fornire un ranking che, sebbene in maniera
imperfetta, correli con una valutazione basato sulla opinioni  di un
comitato di "saggi"
Raccogliere le pubblicazioni e le relative di citazioni di 60000 docenti
Alla fine di questo messaggio ho aggiunto qualche informazione in più
sulla strategia che ho utilizzato per costruire il database. Per
rispondere ad alcuni dei vostri commenti cercherò di elencare qui le
ragioni per cui le mie tabelle possono sotto(sopra)-valutare l'h index
di un collega, intendendo con questo che gli è assegnato un numero di
pubblicazioni e/o citazioni maggiore o minore di quanto non gli
competa. Qui non sto prendendo in considerazione  gli eventuali
problemi di copertura di Google Scholar rispetto a ISI o Scopus. Chi è
interessato a questo può leggersi la discusisone a
http://www.harzing.com/pop_gs.htm
Over-rating

Al momento mi viene solo in mente il problema dell'omonimia. Il

problema è più grave in quelle aree dove si pubblica di meno. Un
Agronomo che ha un omonimo medico o biologo ne trarrà sicuramente
vantaggio. Affronterò parzialmete il problema mettendo un "flag" a
quei colleghi che hanno un omonimo nello stessa Università. Così
abbiamo anche una stima di quanto serio sia il problema. Ho anche un
altra idea per affrontare il problema dell'omonimia in maniera più
generale ma richiederebbe che ci dedicassi più tempo.
Under-rating

Per mitigare il problema dell'omonimia recupero soltanto "prodotti"

di ciascun docente con l'affiliazione che gli assegna il Cineca al
momento attuale (Dicembre 2009) quindi  chi ha preso servizio
recentemente o si è trasferito dopo il 2005 non si vedrà assegnati i
lavori prima del trasferimento. Posso facilmete levare questa
restrizione ma a scapito dell problema dell'omonimia. Devo valutare
quale dei due probemi `è più serio.

Ci sono dei rari casi in cui il cognome riportato al Cineca non

corrisponde a quello con cui il docente si firma.

Imprecisioni nel riportare l'affiliazione.
Sempre allo scopo di filtrare l'informazione al fine di mitigare il

problema dell'omonimia, la ricerca viene fatta soltanto sulle riviste
di competenza dell'area disciplinare secondo la classificazione di
Google Scholar (cliccando sul nome di ciascun docente si può vedere ,
guardando l'url dove ho cercato e cosa ho trovato). Mi sono accorto
che per errore nell'area di Chimica non ho incluso le riviste di
fisica. Questo ha fatto sì che in alcuni SSD, tipcamente quello di
chimica fisica, i paper recuperati fossero in numero minore rispetto
a  quelli attesi. Rimedierò a questo errore rifacendo l'analisi per
chimica entro la settimana prossima.

Avendo solo considerato pubblicazioni in lingua inglese posso aver

penalizzato le aree letterarie e socio economiche. Ma ho pensato,
forse a torto, che anche queste aree dvevono dimostrare di sapersi
confrontare con una platea internazionale,
Apprezzo qualsiasi segnalazione/critica e suggerimento che mi aiuti a
migliorare l'infomazione fornita nel database.
Qui di seguito rispondo ad alcuni dei vostri commenti
Polizzi
Per la mia Università ho trovato solo un Ca' Foscari Venez... che da
solo una pubblicazione per i quattro associati che trova.
Probabilmente esiste un'altra denominazione che non è stata inclusa
tipo Univ. Ca' Foscari...
Questo è sicuramente un problema per cui l'Università Ca foscari è
stata penalizzata. Mi aiuterebbe se mi facessi una lista di tutte le
varianti possibili della tua Università nelle affiliazioni. Forse
sarebbe sufficiente cercare per "Venezia"!!
Battiston
un altro punto riguarda la comfrontabilità di diversi settori di
ricerca:
agraria e fisica solo per fare un esempio, non hanno le stesse
dinamiche di
pubblicazioni.  Ma a questo si puo' ovviare introducento un in indice H
normalizzato, che sostanzialmente pesa le distribuzioni dell' indice H
di
una area scientifica con il valore medio dell' istogramma dell' area. In
questo modo tutti i gli indici H diventano confrontabili come mostrato
in
articoli del settore bibliometrico. Questo è un grande vantaggio, ma
non è
per ora implementato nel software di Cesareni.
L'ultima colonna della tabella mostra proprio questo H-index
normalizzato. In pratcia è uno Z-score ovvero rappresenta il numero di
deviazioni standard per cui l'hindex di quel collega si discosta dalla
media del gruppo concorsuale. (Non mi venite a dire che questo è
significativo solo se la distribuzione è normale perchè lo so). Tenete
presente che questo indice perde di valore in quegli ssd dove il
numero medio di pubblicazioni è vicino a zero con una deviazione
standard molto bassa. Un membro di questo gruppo concorsuale che abbia
fatto una pubblicazione all'anno ottiene un indice normalizzato
sproporzionalmete alto.
In generale l'indice h dovrebbe riguardare la carriera di
un ricercatore, non gli ultimi tre anni della sua attività.
S,i però l'H index sulla carriera punisce i giovani mentre io volevo
avere un'idea  di chi fosse nella fase produttiva della sua carriera
Mi chiedo se sia possibile introdurre
altri parametri, per migliorare l'analisi, es l'età in servizio del
personale, la dimensione del dipartimento analizzato etc...
Naturalment posso fare qualsiasi manipolazione dei dati che riesco a
trovare. Per esempio l'anzianità di servizio non credo che sia
ottenibile in maniera automatica su larga scala. Le dimensioni dei
dipartimenti invece si possono calcolare facilmente
La Carbonara
Ho segnalato a Gianni, dopo alcuni test da me eseguiti, che vi è
il problema delle omonimie per cui i conteggi dei prodotti
e citazioni deve essere fatto con un refinement dei sottodomini
attraverso le keywords degli ambiti.
Se si risolve questo problema, possiamo fare azione di
diffusione più ampia.
Il problema dell'omonimia su così larga scala si può risolvere solo
con ... la magia. In atteva di sviluppare strategie di ricerca più
sofisticate per adesso metterò un "flag" dove c'è un problema di
omonimia.
Vitale
Ho provato a cercare su google scholar il mio nome e universit di
napoli invece che
università di napoli e ho trovato piu' lavori, perche' le lettere
accentate a volte danno
problemi. Si puo' inserire questa modifica?
Questo è un problema che ho affrontato e non so se ho risolto in
maniera ottimale. In pratica ho utilzzato una serie di termini
sinonimi in modo da coprire tutte le più fantasiose versioni di
ciascuna affiliazione.  Ma devo ammettere l'ho fatto in una
mezzoretta. Allego il file con i sinonimi. Se qualcuno vuole suggerire
qualche aggiunta sarò felce di implementarlo ... dopo che ho finito di
scrivere un grant.
Lattanzi
altra curiosità, i risultati non sono interamente consistenti con
Publish or
Perish, che pure usa Google Scholar....
Non è possibile ripetere esattamente l'esperimento con publsh and
perish perchè le citazioni e di conseguenza l'H index cambiano con il
tempo. La mia analisi è stata fatta a dicembre del 2009. Inoltre
bisognerebbe sapere esattamente cosa ho fatto .. cosa che prima o poi
troverò il tempo di decrivere in dettaglio. Se invece le differenze
sono più sostanziali mi interesserebbe sapere i dettagli
forse sono io imbranato, ma ho interrogato il programma dando come
filtro la
mia sede (Cagliari) e il mio SSD (GEO/09), e confonde i dati di
S(tefano) Naitza (che è del SSD GEO/09) con quelli di S(ilvia) Naitza,
Non sei imbranato. Innanzitutto, per chiarezza, tu interroghi un
database e non un programma. Non è pignoleria ma serve a spiegare che
la raccolta delle informazioni ed i relativi calcoli sono stati fatti
l'anno scorso. Questo ha permesso di creare il database che interroghi
online.
Il programma che ha scaricato l'informazioen è naive ed identifica un
autore con il cognome l'iniziale del nome ed un'affiliazione
semplificata per attenuare i problemi citati da Vitale. Nel caso
dell"'università di Cagliari" l'affiliazione semplificata è "Cagliari"
Quindi S(tefano) Naitza Università di Cagliari e S(ilvia) Naitza CNR
Cagliari sono ...  la stessa persona. Si può provare ad affronate
questi problemi ma tenete conto che bisogna trovare qualche soluzione
che vada bene per tutti i 60000 docenti.
Zannier
Concordo! Ho riscontrato anch'io moltissime assurdita', anche  facendo
confronti sul piano internazionale.
Non capisco se il commento si rferisce al fatto che contare il numero
delle citazioni e pubblicazioni produce valutazioni assurde oppure al
fatto che il mio script non ha funzianato ed ha quindi prodotto numeri
assurdi. Sono più interessato ai commenti specific che mi facciano
capire cosa non funziona, piuttosto che hai commenti generici. Per
esempio "moltissime" significa il 10%, 50% o 90% ... e quali? Cosa
vuol dire "confronti sul piano internazionale" in questo contesto. Non
c'è un h-index nazionale ed uno internazionale. Inoltre ho solo
considerato pubblicazioni in lingua inglese?
Ho cercato di capire il perchè di questa senzazione negativa. Ho dato
un'occhiata all SSD di Geometria. Se ordino per H index (cliccando
sull'header) 4 dei primi 5 hanno un omonimo nell'area biomedica
(potete controllare cliccando sul nome ed analizzando gli articoli che
vengono recuperati). E' questo che crea confusione?? Spero che
mettendo il flag sugli "omonim"i si contribusica ad una maggiore
chiarezza
Valutare quanto (e se) questi numeri correlino con con una percepita
ma non ben definita graduatoria di merito
Su questo è già stato scritto di tutto ed il contrario di tutto. Il
mio obbiettivo per adesso è produrre dei numeri che contengano il
minor numero possibile di errori e correggere alcune distorsioni ..
poi vedremo.
Forse possiamo metterci tutti d'accordo sulle conclusioni  "... credo
che la bibliometria non sia di per sé né  sana né insana. Sono sani o
insani gli usi che se  ne fanno...." e " .. bisogna diventare un paese
serio ..."
In ogni caso il problema limitante in questa discussione è che manca
una lista di buoni e cattivi. Il cosidetto "golden standard" con cui
confrontarsi.
Non mi aiuta sapere che il metodo di contare pubblicazioni e citazioni
produce "assurdità". Se un comitato di saggi nelle varie aree mi
dicesse chi è valutato come "bravo" e chi come "somaro" (naturalmente
sto semplificando), potrei accettare o confutare questa conclusione in
maniera quantitativa.
Il suggerimento di Valdinoci di utilizzare i risulttai delle
commissioni di concorso come "Goldenn Standard" o come paragone è
un'altra possibiltà che però vorrei evitare perchè vorrei tenermi
lontano dai concorsi per evitare alcune delle distorioni nell'uso del
database come già discusso. Per il CIVR sono compleatmente d'accordo
con Battiston
A presto
Gianni
Un pò di documentazione

Ho usato il programma di python qui allegato. L'ho allegato per

completezza ma non mi aspetto che sia utilizzabile da qualcuno in
queste condizioni. Prima o poi lo commenterò
-Il programma accetta in input un file dove su ogni riga è contenuta
per ciascun docente l'informazione che ho scaricato dal cineca

Per evitare che vengano perse pubblicazioni a causa dei modi diversi

di annotare la stessa affiliazione uso un dizionario di affiliazioni
"semplificate" (allegaato)
Il programma interroga Google Scholar per recuperare tutte le
pubblicazioni e relative citazioni di quell'autore con l'affiliazione
presente al CINECA negli anni dal 2005 al 2008
Per esempi Rossi Maria Grazia, Università di Tor Vergata verrà
identificata come M Rossi, Tor Vergata (Nota bene uso una sola
iniziale M Rossi trova anche MG Rossi ma MG Rossi non trova M Rossi).
Gli indici recuperati/calcolati sono il numero totate di documenti. i
documenti con almeno una citazione, il numero totale di citazioni, la
pubblicazione con il numero maggiore di citazione e l'indice H
Un altro programmino normalizza i risultati valutando per ciascun
individuo lo Z score ovvero la distanza dalla media dell'indice,
nell'SSD, misurata in unità di deviazioni standard.

Universitas_in_trasformazione@mail.dm.unipi.it mailing list
Per consultare gli archivi, cancellarsi, o cambiare le proprie impostazioni:
https://mail.dm.unipi.it/listinfo/universitas_in_trasformazione
Ulteriori informazioni, e per firmare la petizione, sito di Universitas
Futura: http://w3.disg.uniroma1.it/unira/index.php

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

Re: [Universitas_in_trasformazione] Indicatori