I modelli AI basati su LLM sono imperfetti: non sono in grado di ragionare
I modelli di intelligenza artificiale basati su LLM (Large Language Model) sarebbero imperfetti, ecco lo studio condotto da Apple.
Un recente studio condotto dai ricercatori di intelligenza artificiale di Apple ha evidenziato le carenze dei modelli basati su LLM, ossia i grandi modelli linguistici, come quelli sviluppati da Meta e OpenAI, rispettivamente Llama e ChatGPT.
Nonostante gli evidenti progressi dei chatbot e dell’AI, i motori dimostrano di essere ancora incapaci di svolgere correttamente un ragionamento di base.
Lo studio introduce un nuovo benchmark, denominato GSM-Symbolic, pensato per misurare in modo accurato le capacità di ragionamento di diversi LLM. Dai test iniziali è emerso che anche lievi variazioni nella formulazione delle domande possono produrre risposte differenti, compromettendo la coerenza e l’affidabilità di questi modelli.
Il gruppo di ricerca ha voluto esaminare la fragilità del ragionamento matematico inserendo informazioni contestuali che, pur essendo comprensibili per un essere umano, non avrebbero dovuto modificare la soluzione matematica di base. Tuttavia, le risposte fornite dai modelli variavano sensibilmente, dimostrando un’incoerenza preoccupante.
Nel rapporto, i ricercatori spiegano come le prestazioni di tutti i modelli analizzati peggiorino anche solo cambiando i valori numerici nelle domande del benchmark GSM-Symbolic.
Si è riscontrato inoltre che la loro capacità di risolvere correttamente i problemi matematici peggiora sensibilmente all’aumentare delle clausole incluse nella domanda. In pratica, basta aggiungere una frase che sembri pertinente, ma che in realtà non lo è, per ridurre l’accuratezza della risposta finale fino al 65%.
Questo problema solleva importanti domande relative all’affidabilità di questi modelli: non è possibile costruire agenti affidabili su una base così instabile, dove anche il minimo cambiamento, come l’aggiunta di informazioni irrilevanti, può alterare completamente il risultato.
Per comprendere bene questo problema, il team di ricerca ha posto ai LLM un quesito matematico specifico; il problema è simile a quello che potrebbe affrontare un bambino delle scuole elementari.
Il problema forniva tutte le informazioni necessarie per calcolare il risultato: “Oliver raccoglie 44 kiwi venerdì, 58 sabato e domenica raccoglie il doppio di quanto raccolto il venerdì”. Poi veniva aggiunta una clausola apparentemente rilevante, ma in realtà superflua: dei kiwi raccolti la domenica, “cinque erano leggermente più piccoli della media”. La domanda chiedeva semplicemente quanti kiwi Oliver avesse raccolto in totale. Il dettaglio riguardante la dimensione di alcuni kiwi non avrebbe dovuto influire sul calcolo finale, ma sia il modello di OpenAI che il Llama3-8b di Meta hanno sottratto i cinque kiwi più piccoli dal totale, commettendo così un errore.
Questa logica errata è presente anche in uno studio del 2019, che dimostrava come fosse possibile confondere i modelli di IA con domande fuorvianti. In quel caso, la domanda riguardava l’età di due sportivi che avevano partecipato al Super Bowl. Aggiungendo informazioni non necessarie sui giochi disputati e su un terzo quarterback che aveva partecipato a un’altra partita, i modelli finivano per rispondere in maniera errata.
Alla luce dei risultati ottenuti, i ricercatori hanno concluso che non esistono evidenze di un ragionamento formale nei modelli linguistici attuali. Il comportamento di questi LLM sembra più che altro basato su un sofisticato riconoscimento di schemi, così fragile da poter essere facilmente influenzato anche solo cambiando i nomi presenti nelle domande.