I Large Language Model ragionano davvero?

Negli ultimi giorni ha fatto discutere un paper di Apple intitolato “The Illusion of Reasoning”. Secondo i suoi autori, i modelli linguistici di grandi dimensioni (LLM) non ragionano veramente, ma si limitano a riconoscere schemi già visti. Altri studiosi hanno però criticato il paper, sostenendo che la metodologia usata non rappresenta in modo corretto le capacità attuali dei modelli.

Cosa sostiene il paper di Apple
Cosa contestano i critici al paper
Chi ha ragione?

Cosa sostiene il paper di Apple

Il paper vuole dimostrare che gli LLM, anche quando adottano tecniche avanzate di reasoning (come Chain-of-Thought e Self-Reflection), non ragionano davvero ma imitano pattern appresi. In altre parole, i modelli che sembrano ragionare in realtà riproducono schemi visti nei dati di addestramento.

Gli stessi benchmark finora usati per valutare le capacità di ragionamento dei modelli (problemi di matematica o di coding) sono contaminati, poiché i modelli hanno visto esempi simili durante il training. Quindi, valutare solo l’output finale è fuorviante e non garantisce che ci sia stato un ragionamento corretto.

Per ovviare a questi problemi, Apple ha ideato puzzle controllabili, come la Torre di Hanoi, Checkers Jumping (salti di pedine), River Crossing (attraversamento di un fiume con regole) e Block Wars

In questi test si misura il ragionamento passo dopo passo, non solo il risultato finale.

I risultati sono stati i seguenti:

Su problemi semplici, modelli "non reasoning" ottengono performance migliori.
Su problemi medi, i modelli di reasoning vanno leggermente meglio.
Su problemi complessi (esempio: Torre di Hanoi con 10 dischi), tutti i modelli crollano e sono incapaci di mantenere un ragionamento coerente. Anche fornendo l’algoritmo corretto già nel prompt, i modelli non riescono a eseguire correttamente i calcoli.

Gli LLM non generalizzano realmente il reasoning ed esiste un limite pratico oltre cui il reasoning non scala con la complessità.

Quindi, è necessario ripensare l’architettura per ottenere veri modelli di ragionamento.

Esempio. Digiando il prompt "Esegui la sequenza corretta per spostare 10 dischi della Torre di Hanoi.", anche fornendo con l’algoritmo per risolvere il problema, il modello produce sequenze sbagliate dopo pochi step.

Cosa contestano i critici al paper

D'altra parte il paper di Apple ha ricevuto anche diverse critiche.

Secondo alcuni il paper non definisce in modo chiaro cos’è esattamente “reasoning”. Inoltre c'è una sorta di Bias di dominio, perché i reasoning model sono ottimizzati per coding e matematica, non per giochi di logica visuale.

Quindi, valutare il "ragionamento" sulla capacità di risolvere dei giochi potrebbe non riflettere la loro potenza. Sarebbe come valutare le conoscenze matematiche di una persona facendogli domande sulla letteratura o sulla storia antica.

Ci sono poi alcune critiche al metodo usato per svolgere i test.

I test non permettono ai modelli di usare strumenti ausiliari (es. codice Python, visualizzazioni), che sono oggi parte integrante del loro reasoning.
Il crollo oltre i 10 dischi è anche dovuto al limite di memoria contestuale, non solo alla logica, perché gli attuali LLM impongono dei limiti alla context window.
Non è stato consentito ai modelli di dedicare più tempo al reasoning, penalizzando così il loro potenziale.

Secondo i critici, con tool appropriati (es. generazione di codice o output in CSV), modelli come GPT-4o o Gemini 2.5 riescono a risolvere correttamente puzzle anche complessi.

Quando la risposta testuale non è praticabile, ad esempio una sequenza di 1024 mosse per risolvere la Torre di Hanoi, i modelli sanno adattarsi proponendo soluzioni alternative (script o codice), mostrando meta-ragionamento.

Il paper dimostra che i modelli reasoning non sono ancora perfetti, ma non prova che non ragionano

Il collasso osservato potrebbe essere in parte dovuto alla scelta metodologica.

La metodologia usata è selettiva e non rappresenta tutte le capacità reasoning degli LLM attuali. I modelli ragionano in modo diverso dagli umani (esempio: cercano workaround quando lo spazio di output è insufficiente).

Chi ha ragione?

In conclusione, è vero che i benchmark reasoning attuali sono in parte inaffidabili (giusto punto sollevato dal paper). Tuttavia, l’idea stessa di una AGI non è binaria ("ce l’abbiamo" o "non ce l’abbiamo"), ma un continuum di progressi.

Gli attuali LLM reasoning model vanno usati con tool adeguati e nel giusto contesto. È scorretto trarre conclusioni drastiche sull’intera intelligenza degli LLM da test molto specifici e parziali.

Il paper di Apple ha stimolato un dibattito utile e interessante: serve migliorare i test di reasoning per valutare davvero come ragionano gli LLM.

Tuttavia, dire che "non ragionano affatto" appare oggi una posizione eccessiva. I modelli mostrano già forme di reasoning operative, anche se ancora diverse e meno generalizzate rispetto all’umano.

Probabilmente il cammino verso veri modelli di ragionamento è ancora lungo e aperto... ma sono stati fatti notevoli passi in avanti.

Andrea Minini

12 / 06 / 2025