
I pericoli dell’uso della bibliometria con dati inquinati
ROARS - Wednesday, December 17, 2025La valutazione della ricerca basata sulle metriche viene spesso presentata come una soluzione ai problemi di equità e oggettività. «La bibliometria è per la valutazione della ricerca ciò che la diagnostica per immagini è per la medicina»: è quanto sostenuto da Giovanni Abramo in un recente webinar. L’esperienza suggerisce però che il cambiamento degli incentivi non abbia eliminato i comportamenti opportunistici, ma li abbia trasformati. Il caso italiano delle review mills ne è soloun esempio: gruppi organizzati hanno sfruttato il ruolo di revisori per imporre citazioni e gonfiare artificialmente gli indicatori. Quando i dati sono inquinati, bibliometria e “intelligenza artificiale” assomigliano piuttosto a una diagnostica per immagini che confonde i dati di pazienti diversi, producendo valutazioni distorte e premiando chi sa manipolare il sistema invece di chi fa buona ricerca.
Questa settimana ho partecipato a un webinar organizzato da Clarivate sul tema “Celebrazione del centenario di Eugene Garfield: passato, presente e futuro della scientometria”. Il webinar ha trattato la storia delle prime opere del compianto Eugene Garfield, nonché gli sviluppi attuali e le tendenze future. Le sessioni storiche sono state affascinanti e hanno descritto le straordinarie innovazioni apportate da Garfield nella sua ricerca per comprendere il corpus di informazioni scientifiche come una rete. Garfield si rese conto che le somiglianze tra gli articoli potevano essere identificate dalle citazioni condivise e, negli anni ’50, ideò dei sistemi per acquisire queste informazioni utilizzando schede perforate. Sono abbastanza vecchia da ricordare quando, negli anni ’70, andavo in biblioteca a consultare lo Science Citation Index, che non solo mi indicava articoli importanti nel mio campo, ma spesso mi portava in direzioni inaspettate, facendomi scoprire altri argomenti affascinanti.
Garfield è conosciuto come il padre del Journal Impact Factor, considerato da molti un abominio che distorce il comportamento degli autori a causa delle sue connotazioni di prestigio. Tuttavia, in origine era stato concepito come un indice che aiutasse i bibliotecari a decidere quali riviste acquistare, e solo in seguito è stato riproposto come parametro utilizzato come indicatore dello status dei ricercatori che pubblicavano su quelle riviste.
Mi è piaciuto ascoltare la storia di Garfield, che sembra essere stato un poliedrico personaggio affabile e umano, che ha riconosciuto il valore delle informazioni contenute negli indici e ha trovato modi ingegnosi per sintetizzarle. Consiglio di consultare l’archivio delle sue opere conservato dall’Università della Pennsylvania.
I relatori successivi del webinar si sono concentrati sui nuovi sviluppi nell’uso della scientometria per valutare la qualità della ricerca. Giovanni Abramo ha osservato come la scienza italiana sia stata influenzata dal favoritismo, a causa dell’esclusivo ricorso alla revisione soggettiva tra pari per valutare i ricercatori e le loro istituzioni. La sua opinione è che l’uso delle metriche migliori la valutazione della ricerca rendendola più equa e obiettiva. Ha osservato che, mentre le metriche potrebbero non essere un’opzione in alcuni settori delle arti e delle discipline umanistiche, per le discipline in cui i risultati appaiono generalmente su riviste indicizzate, la bibliometria è preziosa, concludendo che “la bibliometria è per la valutazione della ricerca ciò che la diagnostica per immagini è per la medicina”, ovvero una fonte fondamentale di informazioni oggettive.
Stranamente, 12 anni fa sarei stata d’accordo con lui, quando suggerii che un semplice indice bibliometrico (indice H dipartimentale) potesse ottenere risultati molto simili al complesso e dispendioso processo di revisione tra pari adottato nel REF. All’epoca in cui scrivevo, pensavo che la legge di Goodhart (“Quando una misura diventa un obiettivo, smette di essere una buona misura”) non si applicasse a una metrica basata sulle citazioni, perché le citazioni non erano controllate dagli autori, quindi sarebbe stato difficile manipolarle.
A quanto pare ero ingenua. Il metodo più rozzo per manipolare il sistema è l’eccesso di autocitazioni, ma esistono anche i circoli di citazione (tu citi il mio articolo e io citerò il tuo). Quest’anno Maria Ángeles Oviedo-García, René Aquarius e io abbiamo descritto una versione più sofisticata, una “review mill”, in cui un gruppo di medici italiani ha sfruttato la propria posizione di revisori per costringere altri a citare i lavori del gruppo. Abbiamo suggerito che il cambiamento nella valutazione della ricerca italiana, che era stato implementato con le migliori intenzioni, ha condotto a un cinico gioco di revisione tra pari. Si potrebbe rispondere dicendo che questa attività, sebbene inquietante, riguarda solo una piccola percentuale di articoli e quindi non avrebbe un effetto rilevante. Ancora una volta, dieci anni fa sarei stata d’accordo. Ma ora, con un’esplosione di pubblicazioni che sembra guidata da editori più interessati al guadagno che alla qualità (vedi Hanson et al, 2024) e standard editoriali straordinariamente laschi, questo potrebbe non essere più vero. Il punto chiave dei review mill è che abbiamo visto evidenze della loro attività perché utilizzavano modelli generici per le revisioni tra pari, ma questi possono essere rilevati solo per le riviste che pubblicano revisioni tra pari aperte, una piccola minoranza. Il membro più prolifico del review mill era un editor di riviste che aveva quasi 3000 revisioni tra pari verificate elencate su Web of Science, ma solo una manciata di queste era consultabile.
Temo quindi che la bibliometria sia più simile a un’immagine diagnostica che ha confuso i dati di diversi pazienti: contiene alcune informazioni valide, ma sono distorte dall’errore.
La presentazione finale di Valentin Bogorov ha descritto il futuro della scientometria, in cui l’intelligenza artificiale sarebbe stata sfruttata per fornire informazioni molto più dettagliate e aticolate sull’impatto sociale della ricerca. Ma ho avuto l’impressione che ignorasse il problema della frode che si è insinuato nei database bibliometrici. Le review mills sono un problema per la validità dei dati citazionali, ma le paper mills sono un problema molto più grave. Mentre le review mills si basano sull’auto-organizzazione di gruppi di ricerca dubbi per migliorare la loro reputazione, molte paper mills sono gestite da organizzazioni esterne la cui unica motivazione è il profitto (Parker et al., 2024). Vendono authorship e citazioni a un prezzo che dipende dall’Impact Factor della rivista: Eugene Garfield si rivolterebbe nella tomba. Sono state individuate per la prima volta circa 12 anni fa, ma si sono moltiplicate come un virus e stanno infettando gravemente interi ambiti di ricerca. A volte vengono riconosciute per la prima volta quando un ricercatore esperto in materia trova articoli anomali o fraudolenti mentre cerca di esaminare il campo (vedi, ad esempio, Aquarius et al, 2025).
Le paper mills prosperano in un ambiente favorevole, dove editor corrotti o incompetenti approvano articoli che contengono chiare violazioni del metodo scientifico o che sono evidentemente una collazione di vari articoli plagiati. La speranza degli editori è che l’IA fornisca dei modi per individuare gli articoli fraudolenti e rimuoverli prima che entrino nella letteratura, ma i produttori di articoli di bassa qualità hanno dimostrato di essere abili nel mutare per eludere l’individuazione. Purtroppo, proprio le aree in cui l’IA e i big data sembrano essere più promettenti, come i database che collegano geni, proteine, molecole e biomarcatori, sono già contaminate. Il timore è che gli stessi produttori di articoli di bassa qualità utilizzino sempre più l’IA per creare articoli sempre più plausibili.
Non sono contraria alla bibliometria o all’intelligenza artificiale in linea di principio, ma trovo preoccupante l’ottimismo riguardo alla sua applicazione alla valutazione della ricerca, soprattutto perché non è stato fatto alcun riferimento ai problemi che emergeranno se il database interrogato dall’intelligenza artificiale sarà inquinato. Qualsiasi metodo di valutazione avrà costi, benefici e conseguenze impreviste. La mia preoccupazione è che, se ci concentriamo solo sui benefici, potremmo ritrovarci con un sistema che incoraggia i truffatori e premia coloro che sono più abili a manipolare il sistema piuttosto che i migliori scienziati.