Intelligenza artificiale generativa nella ricerca scientifica: vantaggi e limiti dei LLM come ChatGPT

prova

Nel mondo della ricerca scientifica, l'intelligenza artificiale è già una realtà consolidata che ha permesso di cambiare in modo radicale l’approccio e la rapidità con cui scienziati e ricercatori analizzano ed interpretano vasti insieme di dati.

In questo particolare campo dell’informatica sta però emergendo una nuova forma di intelligenza artificiale, chiamata intelligenza artificiale generativa, che potrebbe rivoluzionare il modo in cui si conduce la ricerca scientifica e si diffondiamo le scoperte.

Cos’è l’intelligenza artificiale generativa e come funziona?

L’intelligenza artificiale generativa è un ramo dell'intelligenza artificiale che si prefigge di creare sistemi informatici in grado di generare autonomamente immagini, suoni e altro ancora. Questi sistemi sfruttano l'apprendimento automatico e le reti neurali artificiali per apprendere da dati di addestramento e generare nuovi contenuti che possono sembrare quelli creati da un essere umano.

Per descriverlo in parole semplici, questo processo di apprendimento è simile a quello con cui un bambino impara, per imitazione, a disegnare un gatto. Per farlo, è necessario mostrare al bambino molte immagini di gatti in modo che possa comprendere i tratti comuni, come la forma del corpo, la posizione delle orecchie e la forma della coda. Una volta che il bambino ha acquisito queste nozioni, sarà in grado di disegnare un gatto che rispecchia queste caratteristiche e di rappresentarlo autonomamente in diverse situazioni.

‍

LLM (Large Language Models): cos’è e come funziona

Tra questi strumenti, sta prendendo piede una particolare categoria di intelligenza artificiale generativa nota come "elaborazione del linguaggio naturale", comunemente abbreviata come LLM (dall’inglese Large Language Models).

In questo caso, il sistema viene sottoposto ad un processo di pre-addestramento che consiste nell’esposizione ad una vasta mole di testi provenienti da internet. Da questi testi, i LLM apprendono la struttura sintattica del linguaggio, il campo semantico delle parole e la conoscenza generale. Quando questi sistemi vengono messi di fronte ad una domanda scritta, sono in grado di comprenderla e di generare risposte grammaticalmente corrette e semanticamente adeguate. Le risposte generate sono talmente fluide e coerenti da sembrare il risultato del pensiero umano.

ChatGPT e il suo utilizzo oggi

Un particolare programma di LLM, noto come ChatGPT, è stato reso disponibile al pubblico dal 30 gennaio 2023, offrendo a chiunque la possibilità di utilizzare le sue capacità di generare risposte istantanee ad una vasta gamma di domande inerenti ai più svariati argomenti, dalla scienza alla cultura popolare, dalle notizie ai consigli personali. Nonostante le grandi potenzialità, l’ampia accessibilità di questi sistemi ha inevitabilmente stimolato numerose discussioni nell’opinione pubblica e anche nella comunità scientifica.

LLM: pro e contro nell’ambito della ricerca scientifica

I vantaggi dei LLM

Ma cosa significa la crescente disponibilità di LLM per la ricerca scientifica?

Quando Nature, una delle maggiori riviste scientifiche a livello mondiale, ha intervistato i ricercatori su quali fossero i principali benefici dell'intelligenza artificiale generativa per la scienza, la risposta più comune è stata che avrebbe aiutato i ricercatori non di madrelingua inglese a revisionare e correggere rapidamente i documenti, contribuendo a migliorarne chiarezza ed accuratezza. Sebbene lo stesso sondaggio di Nature abbia evidenziato che gli scienziati che utilizzano regolarmente i LLM siano ancora una minoranza, molti si aspettano che gli LLM diventino assistenti comuni e abbiano quindi la possibilità di influenzare diversi aspetti dell'attività di ricerca.

Come l’Intelligenza artificiale generativa può ottimizzare il lavoro dei ricercatori

Per molti ricercatori, l'intelligenza artificiale generativa potrebbe rappresentare un mezzo per ridurre il tempo dedicato allo studio della letteratura scientifica e alla stesura di articoli per aumentare il tempo disponibile per la conduzione delle sperimentazioni, cambiando il modo in cui sintetizzano e comunicano i risultati sperimentali. Infatti, questi sistemi sono in grado di analizzare una vasta letteratura scientifica per estrarre informazioni rilevanti, accelerando il processo di revisione e la generazione di nuove ipotesi. Ad agosto, Elsevier, una delle più grandi case editrici nell’ambito scientifico, ha lanciato una versione pilota del suo strumento LLM, Scopus AI, per riformulare i risultati dalle ricerche convenzionali e fornire brevi riassunti.

‍

Svantaggi dei LLM

Nonostante l'entusiasmo nella comunità scientifica per i rapidi progressi degli strumenti di intelligenza artificiale generativa e la loro ampia accessibilità, è importante riconoscere i loro limiti che potrebbero influire sulla loro applicazione diffusa nella scienza.

I dati a disposizione non sono recenti

Ad esempio, gli attuali sistemi LLM sono in grado di rispondere utilizzando le informazioni che erano disponibili al tempo in cui sono stati addestrati. I processi di addestramento richiedono parecchio tempo e accade spesso che gli LLM attualmente in uso non siano in grado di fornire informazioni sulle scoperte più recenti ma si fermino ad informazioni relative all’anno precedente poiché non sono stati ancora istruiti su periodi temporali più recenti. Questo rappresenta una sfida significativa nell'ambito della ricerca scientifica, che si basa sulla disponibilità in tempo reale di informazioni pubblicate in letteratura.

Le fonti non sono sempre rintracciabili

I sistemi LLM sono spesso addestrati su contenuti di testo difficili da tracciare, limitando la possibilità di verificare le fonti alla base delle risposte generate. L’impossibilità di risalire alle fonti porta inevitabilmente a questioni etiche in quanto esiste la possibilità di violare i diritti d'autore dei testi da cui vengono estratte le informazioni. La mancanza di citazioni appropriate potrebbe a lungo termine influenzare le metriche con cui spesso vengono valutati i ricercatori e l'impatto delle loro ricerche.

Espone al rischio di errori

Ma c’è di più, la mancata possibilità di verificare le fonti può portare alla generazione di risposte apparentemente corrette e credibili ma che contengono in realtà errori importanti di fondo che sono difficili da accertare. Infine, un altro importante limite dei sistemi di LLM è che, sebbene siano straordinariamente capaci nel generare testi, non sempre sono in grado di cogliere il significato sottostante o la rilevanza di ciò che producono. Questo può portare a risultati fuorvianti o inutili, che richiedono ancora l'intervento umano per essere interpretati correttamente.

L'ampio utilizzo degli strumenti di intelligenza artificiale generativa potrebbe quindi agevolare la produzione di articoli di scarsa qualità e, nel peggiore dei casi, minacciare l'integrità della ricerca quando combinata con un utilizzo inappropriato.

La reazione delle case editrici scientifiche

Per queste ragioni, diverse case editrici di riviste scientifiche sono preoccupate che un utilizzo indiscriminato e poco consapevole dei sistemi di LLM possa più facilmente portare alla produzione di articoli falsi ma convincenti. Idealmente, le case editrici dovrebbero essere in grado di riconoscere il testo generato da LLM poiché alcuni sviluppatori stanno lavorando per rendere riconoscibili questi testi.

Nella pratica corrente però non esistono ancora degli strumenti veri e propri per un corretto rilevamento dei testi generati con intelligenza artificiale generativa. Per questa ragione diversi editori hanno imposto limiti nell’utilizzo di LLM nelle pubblicazioni scientifiche.

L' American Association for the Advancement of Science, che pubblica la rivista Science, ha infatti vietato del tutto l'uso dei LLM nelle pubblicazioni scientifiche. Al contrario, la maggior parte delle riviste scientifiche, come ad esempio Nature, hanno sottolineato la necessità che agli autori siano trasparenti riguardo all’utilizzo di questi sistemi e che forniscano informazioni complete sui dati e sui metodi utilizzati per generare i risultati, in modo da garantire che questi siano accurati, affidabili e, soprattutto, riproducibili.

Qual è il futuro dell’intelligenza artificiale generativa?

Per comprendere l'entità e l'ampia diffusione di questa innovativa tecnologia, basti considerare alcuni dati recenti che evidenziano una crescita straordinaria nell'uso di ChatGPT: nel periodo tra gennaio e marzo 2023, si sono registrati quasi 2 miliardi di utenti mensili che hanno adottato questa tecnologia a livello globale, con una media di 9 minuti per visita.

L'Italia, in particolare, non è rimasta indietro: nel solo mese di gennaio, il sito che ospita ChatGPT ha attirato oltre 1,4 milioni di utenti unici, i quali hanno dedicato al sito una media mensile di 13,1 minuti.

Questo supera addirittura il tempo di utilizzo mensile di altri siti informativi ampiamente frequentati, come Wikipedia, visitato in media per 11,2 minuti al mese. Grazie soprattutto al pubblico maschile di età compresa tra i 15 e i 24 anni, in pochi mesi il sito di ChatGPT si è collocato tra i primi 150 siti e app più visitati in Italia.

Ma le sorprese non finiscono qui: l'impatto di questa tecnologia è così significativo che un'analisi recente ha stimato che una sua diffusione ampia e pervasiva potrebbe generare, a parità di ore lavorate, un valore aggiunto annuo fino a 312 miliardi di euro, corrispondenti al 18% del PIL italiano.

Siamo quindi alla vigilia di una nuova svolta in cui l'intelligenza artificiale può essere una forza dirompente per catalizzare il progresso scientifico? Con buona probabilità si e siamo già nel pieno di questa trasformazione. Siamo pronti e dotati delle conoscenze necessarie per utilizzare tali strumenti nel modo più corretto ed etico possibile? Probabilmente no ed è quindi importante essere consapevoli dei loro limiti al fine di adottare misure per mitigarli ed utilizzarli nel migliore dei modi possibile.